전체 글
-
kafka retention 용량 설정 값 이해하기Programming 2023. 5. 1. 01:17
overview retention.bytes옵션을 통해 retention 용량을 1GB로 설정했었는데 토픽의 용량이 7GB가 넘어가는 것들이 생겼다. 브로커당 용량이라고 이해해도 3GB넘지 않을 것이고 리플리케이션 팩터가 2라서라기엔 2GB를 훌쩍넘는다. 7GB라니...오버에도 한참 오버했다. 도대체 이 설정값들은 각각 무엇을 의미하는 것이고 어떤 매커니즘으로 메세지들이 지워지는지 파악해보자 Topic retention 용량 설정에 대해서 알아보기 전에 토픽에 대해서 간단히 정리해보자 partitions 리더 파티션과 팔로워 파티션으로 구분(replication-factor가 1인 경우 리더 파티션만 존재) 리더 파티션은 프로듀서 또는 컨슈머와 직접 통신하는 파티션으로 읽기, 쓰기 연산을 담당 팔로워 파..
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
debezium server 정리 및 트러블슈팅Programming/java 2023. 2. 6. 00:27
개요 CDC(Change Data Capture) CDC는 변경 데이터 켑처이라는 의미로 주로 데이터베이스와 같은 데이터 스토어의 데이터 변경을 포착하여 ETL, 감사(audit), 캐싱과 같은 다양한 후속 처리를 하는데 사용한다. Debezium 이름은 DB와 주기율표에 많은 요소 이름에 사용되는 -ium 접미사의 조합 Debezium은 다양한 데이터베이스를 모니터링하며 모든 이벤트를 대상으로 변경 사항을 분을 거의 즉시 응답하는 분산 오픈 소스 플랫폼이다. debezium은 결함과 실패를 허용하도록 설계되었고 수행하는 유일한 방법은 분산 시스템을 사용하는 것이다. Debezium은 모니터링 프로세스 또는 커넥터를 여러 시스템에 분산시킬 수 있고 문제가 발생하면 커넥터를 다시 시작할 수 있다. 카카오커..
-
2022년 결산 및 회고log 2023. 1. 26. 01:30
이직한 회사에서 살아남기 딱 이 맘때쯤 회고록 고졸 개발자가 1년만에 당토직야로 이직한 건에 대하여를 블로그에 게시했다. 뭔가 복잡하고 회고록같지 않은 네이밍이지만 이번에는 뭔가 대비되도록 심플하게 2022년 결산 및 회고라는 평범한 제목으로 회고록을 작성하려고 한다. 굳이 부제를 붙이자면 이직한 회사에서 살아남기 정도가 되겠지만 생각보다 글로 적으면 그렇게까지 스펙타클하거나 한 건 없을 것 같아서 단순명료하게 결산 및 회고 정도면 적확하다 싶다. 사실 적응은 이미 상반기에 끝나서 3개월차가 지난 이후로는 무난하게 큰 탈없이 흘러왔다고 볼 수 있다. 남은 나머지는 이제 적응한 베이스를 가지고 새롭게 채워나가고 루틴을 만들어가는 것에 있었는데, 새롭게 이직한 회사에서는 기술적인 베이스도 달랐지만 무엇보다 ..
-
2022 Airflow Summit - Implementing Event Based Dags with AirflowReview/IT 2022. 8. 28. 16:44
https://airflowsummit.org/sessions/2022/ 에어플로우 2022 summit의 세션중에 Implementing Event Based Dags with Airflow 세션을 번역하고 정리한 내용입니다. Airflow Summit 2022 sessions Airflow summit is the premier conference for the worldwide community of developers and users of Apache Airflow. airflowsummit.org 발표자는 데이터 엔지니어링 컨설턴트 Astronomer의 리드 엔지니어 time-based scheduling은 새벽5시에 땡하고 출발하는 마라톤에 비유 Event-based triggering은 팀..
-
오픈소스 컨트리뷰션 아카데미 발대식 후기log 2022. 7. 28. 00:20
지난 주말 9일 토요일 오픈소스 컨트리뷰션 아카데미의 발대식이 진행되었다. 발대식은 말그대로 앞으로의 스케줄과 멘토와 멘티들 서로 얼굴을 익히는 자리였다. 발대식과 별개로 멘토와 멘티들끼리 모여서 앞으로의 계획이나 어떻게 기여할지, 또는 작업할지에 대해서 논의하는 자리기도 했다. 디스코드를 통해서 가볍게 아이스브레이킹도 하면서 경직된 분위기를 살짝 업시키기도 했다. 아쉬운건 바로 다음 발대식이 예약되어 있어서 회의를 채 끝마치지 못한체 자리를 비워주어야 했다는 점이다. 그래도 생각보다 준비해준 다과나 식사, 굿즈 등이 퀄리티도 좋고 맛도 좋았다. 생각보다 돈이 많이 들었을 것 같다는 생각이 들정도다. 오픈소스 컨트리뷰션 아카데미의 공간도 선릉역에 있는데 언제든지 예약하고 프로젝트를 위해 사용할 수 있다는..
-
(2022.06.01~06.05)서울 국제 도서전 후기log 2022. 7. 4. 17:34
서울국제도서전은 전국도서전시회로 시작했던 1954년부터 지금까지 70년 가까이 출판사, 저자, 독자가 한자리에서 만나는 우리나라의 가장 큰 책 축제다. 그렇게 오래된 축제임에도 불구하고 내가 서울국제도서전을 알고 참여하게 된 것은 이번이 처음이다. 책에 관심이 있었던 것은 꽤 되었지만 책 박람회가 있다는 것을 알지 못했고 알려고 시도조차 안했다. 그러던 중 뉴닉 뉴스레터를 구독하다가 우연히 서울 국제 도서전이 개최한다는 것을 알았고 과연 책 박람회는 어떨까하는 호기심 반 책에 대한 흥미 반해서 도서전에 참여하게 되었다. 뉴닉또한 서울국제도서전의 부스를 개최하여 이벤트를 진행하고 있었다. 퀴즈를 풀면 소정의 사은품을 증정하던데, 그냥 지나가면서 참여도 안하고 뉴닉 구독자라고도 말안하고 아 여기구나...하면..