전체 글
-
토스 slash23 데이터 세션 정리Review/IT 2023. 7. 1. 08:20
은행 데이터플랫폼 오픈소스로 전환하기 기존 정보계 시스템의 문제점 토스뱅크는 초기에 타은행 시스템 구조를 그대로 따와서 구축이 되었고, 타 은행들과 동일하게 계정계, 채널계, 정보계 세가지 영역으로 구성됨 mysql뿐만 아니라 MongoDB같은 NoSQL도 하둡으로 보내 분석에 활용하고 있다 보고서를 위해서 이런 데이터들을 오라클엑사로 다시 보내야하는 문제가 있어서 불필요한 데이터 이동이 생김 오라클 엑사의 비용이 하둡에 비해 10배나 높았으므로 하둡으로 시스템을 통합하려는 목표 기존에 잘 돌고 있는 정보계 시스템을 옮기는 방법 Concern & Challenge 기존에 잘 돌고 있는 것을 무엇으로, 어떻게 대체할 것인가 기존 시스템과 동일한 값임을 어떻게 보장할 것인가 이미 구축한 상황에서 옮기는데 드..
-
2회 수군수군 데이터 엔지니어 모임 후기log 2023. 5. 30. 01:42
링크드인쪽에서 몇몇분들을 중심으로 데이터 엔지니어 모임을 개최한다고는 소식을 전해들었다. 링크드인을 개인적으로 따로 하지는 않아서 1회 밋업때 발표 자료인 당근마켓의 에어바이트 발표를 재밌게 봤던 기억이 있다. 그래서 혹시나 이 밋업이 다음번에도 진행되면 참석하면 좋겠다는 생각에 찾고 찾아서 수군수군 데이터 엔지니어 메일링 서비스에 가입했고 그 기억도 잊어버릴 어느 즈음해서 잠들어있는 줄만 알았던 수군수군 데이터 엔지니어 발신자를 통해서 메일이 하나 날아왔다. https://page.stibee.com/subscriptions/226823 수군수군 데이터 엔지니어 밋업 메일링 리스트 언젠가 또 개최될 수군수군 데이터 엔지니어 밋업 개최 소식을 메일로 받아보고 싶으시다면 이메일을 적어주세요. page.st..
-
2023 트리노 밋업 후기log 2023. 5. 23. 01:26
한국 데이터 엔지니어 모임에서 트리노 밋업이 열린다는 소식을 전해듣고 트리노를 잘 활용하고 있는 한 유저로써 바로 신청했다. 트리노 밋업은 스파크플러스 선릉점에서 열렸으며 SKT와 스타버스트의 후원으로 진행하게 되었다. 입장해서 가장먼저 저녁을 대신할 샌드위치와 과일, 간단한 다과와 음료를 받아 자리에 앉았다. 아 트리노 트레이드마크인 토끼 마스코트가 그려진 티셔츠가 블랙과 화이트 중 택1로 받을 수 있었는데, 블랙은 너무 개발자스러워서 화이트로 받았다. 밋업이 끝날때쯤 과연 블랙만 품절이고 화이트는 조금 남았어서 블랙을 받고 끝날때쯤 남은 화이트를 가지고가 블랙과 화이트 둘다 챙길껄 하는 아쉬운 마음이 들었다. 사실 사이즈가 XL라고는 하지만 여성 기준인듯 나에게는 거의 95나 M사이즈에 가까울만큼이나..
-
kafka retention 용량 설정 값 이해하기Programming 2023. 5. 1. 01:17
overview retention.bytes옵션을 통해 retention 용량을 1GB로 설정했었는데 토픽의 용량이 7GB가 넘어가는 것들이 생겼다. 브로커당 용량이라고 이해해도 3GB넘지 않을 것이고 리플리케이션 팩터가 2라서라기엔 2GB를 훌쩍넘는다. 7GB라니...오버에도 한참 오버했다. 도대체 이 설정값들은 각각 무엇을 의미하는 것이고 어떤 매커니즘으로 메세지들이 지워지는지 파악해보자 Topic retention 용량 설정에 대해서 알아보기 전에 토픽에 대해서 간단히 정리해보자 partitions 리더 파티션과 팔로워 파티션으로 구분(replication-factor가 1인 경우 리더 파티션만 존재) 리더 파티션은 프로듀서 또는 컨슈머와 직접 통신하는 파티션으로 읽기, 쓰기 연산을 담당 팔로워 파..
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
debezium server 정리 및 트러블슈팅Programming/java 2023. 2. 6. 00:27
개요 CDC(Change Data Capture) CDC는 변경 데이터 켑처이라는 의미로 주로 데이터베이스와 같은 데이터 스토어의 데이터 변경을 포착하여 ETL, 감사(audit), 캐싱과 같은 다양한 후속 처리를 하는데 사용한다. Debezium 이름은 DB와 주기율표에 많은 요소 이름에 사용되는 -ium 접미사의 조합 Debezium은 다양한 데이터베이스를 모니터링하며 모든 이벤트를 대상으로 변경 사항을 분을 거의 즉시 응답하는 분산 오픈 소스 플랫폼이다. debezium은 결함과 실패를 허용하도록 설계되었고 수행하는 유일한 방법은 분산 시스템을 사용하는 것이다. Debezium은 모니터링 프로세스 또는 커넥터를 여러 시스템에 분산시킬 수 있고 문제가 발생하면 커넥터를 다시 시작할 수 있다. 카카오커..
-
2022년 결산 및 회고log 2023. 1. 26. 01:30
이직한 회사에서 살아남기 딱 이 맘때쯤 회고록 고졸 개발자가 1년만에 당토직야로 이직한 건에 대하여를 블로그에 게시했다. 뭔가 복잡하고 회고록같지 않은 네이밍이지만 이번에는 뭔가 대비되도록 심플하게 2022년 결산 및 회고라는 평범한 제목으로 회고록을 작성하려고 한다. 굳이 부제를 붙이자면 이직한 회사에서 살아남기 정도가 되겠지만 생각보다 글로 적으면 그렇게까지 스펙타클하거나 한 건 없을 것 같아서 단순명료하게 결산 및 회고 정도면 적확하다 싶다. 사실 적응은 이미 상반기에 끝나서 3개월차가 지난 이후로는 무난하게 큰 탈없이 흘러왔다고 볼 수 있다. 남은 나머지는 이제 적응한 베이스를 가지고 새롭게 채워나가고 루틴을 만들어가는 것에 있었는데, 새롭게 이직한 회사에서는 기술적인 베이스도 달랐지만 무엇보다 ..