kafka
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..