전체 글
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
debezium server 정리 및 트러블슈팅Programming/java 2023. 2. 6. 00:27
개요 CDC(Change Data Capture) CDC는 변경 데이터 켑처이라는 의미로 주로 데이터베이스와 같은 데이터 스토어의 데이터 변경을 포착하여 ETL, 감사(audit), 캐싱과 같은 다양한 후속 처리를 하는데 사용한다. Debezium 이름은 DB와 주기율표에 많은 요소 이름에 사용되는 -ium 접미사의 조합 Debezium은 다양한 데이터베이스를 모니터링하며 모든 이벤트를 대상으로 변경 사항을 분을 거의 즉시 응답하는 분산 오픈 소스 플랫폼이다. debezium은 결함과 실패를 허용하도록 설계되었고 수행하는 유일한 방법은 분산 시스템을 사용하는 것이다. Debezium은 모니터링 프로세스 또는 커넥터를 여러 시스템에 분산시킬 수 있고 문제가 발생하면 커넥터를 다시 시작할 수 있다. 카카오커..
-
2022년 결산 및 회고log 2023. 1. 26. 01:30
이직한 회사에서 살아남기 딱 이 맘때쯤 회고록 고졸 개발자가 1년만에 당토직야로 이직한 건에 대하여를 블로그에 게시했다. 뭔가 복잡하고 회고록같지 않은 네이밍이지만 이번에는 뭔가 대비되도록 심플하게 2022년 결산 및 회고라는 평범한 제목으로 회고록을 작성하려고 한다. 굳이 부제를 붙이자면 이직한 회사에서 살아남기 정도가 되겠지만 생각보다 글로 적으면 그렇게까지 스펙타클하거나 한 건 없을 것 같아서 단순명료하게 결산 및 회고 정도면 적확하다 싶다. 사실 적응은 이미 상반기에 끝나서 3개월차가 지난 이후로는 무난하게 큰 탈없이 흘러왔다고 볼 수 있다. 남은 나머지는 이제 적응한 베이스를 가지고 새롭게 채워나가고 루틴을 만들어가는 것에 있었는데, 새롭게 이직한 회사에서는 기술적인 베이스도 달랐지만 무엇보다 ..
-
2022 Airflow Summit - Implementing Event Based Dags with AirflowReview/IT 2022. 8. 28. 16:44
https://airflowsummit.org/sessions/2022/ 에어플로우 2022 summit의 세션중에 Implementing Event Based Dags with Airflow 세션을 번역하고 정리한 내용입니다. Airflow Summit 2022 sessions Airflow summit is the premier conference for the worldwide community of developers and users of Apache Airflow. airflowsummit.org 발표자는 데이터 엔지니어링 컨설턴트 Astronomer의 리드 엔지니어 time-based scheduling은 새벽5시에 땡하고 출발하는 마라톤에 비유 Event-based triggering은 팀..
-
오픈소스 컨트리뷰션 아카데미 발대식 후기log 2022. 7. 28. 00:20
지난 주말 9일 토요일 오픈소스 컨트리뷰션 아카데미의 발대식이 진행되었다. 발대식은 말그대로 앞으로의 스케줄과 멘토와 멘티들 서로 얼굴을 익히는 자리였다. 발대식과 별개로 멘토와 멘티들끼리 모여서 앞으로의 계획이나 어떻게 기여할지, 또는 작업할지에 대해서 논의하는 자리기도 했다. 디스코드를 통해서 가볍게 아이스브레이킹도 하면서 경직된 분위기를 살짝 업시키기도 했다. 아쉬운건 바로 다음 발대식이 예약되어 있어서 회의를 채 끝마치지 못한체 자리를 비워주어야 했다는 점이다. 그래도 생각보다 준비해준 다과나 식사, 굿즈 등이 퀄리티도 좋고 맛도 좋았다. 생각보다 돈이 많이 들었을 것 같다는 생각이 들정도다. 오픈소스 컨트리뷰션 아카데미의 공간도 선릉역에 있는데 언제든지 예약하고 프로젝트를 위해 사용할 수 있다는..
-
(2022.06.01~06.05)서울 국제 도서전 후기log 2022. 7. 4. 17:34
서울국제도서전은 전국도서전시회로 시작했던 1954년부터 지금까지 70년 가까이 출판사, 저자, 독자가 한자리에서 만나는 우리나라의 가장 큰 책 축제다. 그렇게 오래된 축제임에도 불구하고 내가 서울국제도서전을 알고 참여하게 된 것은 이번이 처음이다. 책에 관심이 있었던 것은 꽤 되었지만 책 박람회가 있다는 것을 알지 못했고 알려고 시도조차 안했다. 그러던 중 뉴닉 뉴스레터를 구독하다가 우연히 서울 국제 도서전이 개최한다는 것을 알았고 과연 책 박람회는 어떨까하는 호기심 반 책에 대한 흥미 반해서 도서전에 참여하게 되었다. 뉴닉또한 서울국제도서전의 부스를 개최하여 이벤트를 진행하고 있었다. 퀴즈를 풀면 소정의 사은품을 증정하던데, 그냥 지나가면서 참여도 안하고 뉴닉 구독자라고도 말안하고 아 여기구나...하면..
-
컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 리뷰Review/Book 2022. 6. 27. 00:12
얼핏 책의 제목을 읽어보면 쿠버네티스와 도커에 대한 설명으로 가득할 것 같지만, 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커는 비단 쿠버네티스와 도커에 대한 설명으로 그치지 않고 컨테이너 인프라의 전반적인 환경에 대해 방점을 찍혀있는 책이다. 젠킨스와 프로메테우스 그라파나 등 컨테이너 기반의 환경에서 모니터링과 CI/CD 등 배포까지를 책에서는 담고있다. 폭넓게 인프라 전반적인 환경들을 다룰 수 있다는 점에서는 이 책이 유용하다고 느낄 수 있으나 도커와 쿠버네티스의 핵심만 공부하고 싶은 사람들에게는 사실 그다지 쓸모없는 내용처럼 느껴질 수도 있다. 사실 젠킨스나 프로메테우스와 같은 경우에는 툴처럼 사용하는 경향이 더 커서 핵심적인 내용만 알고 실무에 적용하기를 원하는 니즈가 더 강하게 느껴졌기 때문..