Review
-
토스 slash23 데이터 세션 정리Review/IT 2023. 7. 1. 08:20
은행 데이터플랫폼 오픈소스로 전환하기 기존 정보계 시스템의 문제점 토스뱅크는 초기에 타은행 시스템 구조를 그대로 따와서 구축이 되었고, 타 은행들과 동일하게 계정계, 채널계, 정보계 세가지 영역으로 구성됨 mysql뿐만 아니라 MongoDB같은 NoSQL도 하둡으로 보내 분석에 활용하고 있다 보고서를 위해서 이런 데이터들을 오라클엑사로 다시 보내야하는 문제가 있어서 불필요한 데이터 이동이 생김 오라클 엑사의 비용이 하둡에 비해 10배나 높았으므로 하둡으로 시스템을 통합하려는 목표 기존에 잘 돌고 있는 정보계 시스템을 옮기는 방법 Concern & Challenge 기존에 잘 돌고 있는 것을 무엇으로, 어떻게 대체할 것인가 기존 시스템과 동일한 값임을 어떻게 보장할 것인가 이미 구축한 상황에서 옮기는데 드..
-
2회 수군수군 데이터 엔지니어 모임 후기Review 2023. 5. 30. 01:42
링크드인쪽에서 몇몇분들을 중심으로 데이터 엔지니어 모임을 개최한다고는 소식을 전해들었다. 링크드인을 개인적으로 따로 하지는 않아서 1회 밋업때 발표 자료인 당근마켓의 에어바이트 발표를 재밌게 봤던 기억이 있다. 그래서 혹시나 이 밋업이 다음번에도 진행되면 참석하면 좋겠다는 생각에 찾고 찾아서 수군수군 데이터 엔지니어 메일링 서비스에 가입했고 그 기억도 잊어버릴 어느 즈음해서 잠들어있는 줄만 알았던 수군수군 데이터 엔지니어 발신자를 통해서 메일이 하나 날아왔다. https://page.stibee.com/subscriptions/226823 수군수군 데이터 엔지니어 밋업 메일링 리스트 언젠가 또 개최될 수군수군 데이터 엔지니어 밋업 개최 소식을 메일로 받아보고 싶으시다면 이메일을 적어주세요. page.st..
-
2023 트리노 밋업 후기Review/IT 2023. 5. 23. 01:26
한국 데이터 엔지니어 모임에서 트리노 밋업이 열린다는 소식을 전해듣고 트리노를 잘 활용하고 있는 한 유저로써 바로 신청했다. 트리노 밋업은 스파크플러스 선릉점에서 열렸으며 SKT와 스타버스트의 후원으로 진행하게 되었다. 입장해서 가장먼저 저녁을 대신할 샌드위치와 과일, 간단한 다과와 음료를 받아 자리에 앉았다. 아 트리노 트레이드마크인 토끼 마스코트가 그려진 티셔츠가 블랙과 화이트 중 택1로 받을 수 있었는데, 블랙은 너무 개발자스러워서 화이트로 받았다. 밋업이 끝날때쯤 과연 블랙만 품절이고 화이트는 조금 남았어서 블랙을 받고 끝날때쯤 남은 화이트를 가지고가 블랙과 화이트 둘다 챙길껄 하는 아쉬운 마음이 들었다. 사실 사이즈가 XL라고는 하지만 여성 기준인듯 나에게는 거의 95나 M사이즈에 가까울만큼이나..
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
2022 Airflow Summit - Implementing Event Based Dags with AirflowReview/IT 2022. 8. 28. 16:44
https://airflowsummit.org/sessions/2022/ 에어플로우 2022 summit의 세션중에 Implementing Event Based Dags with Airflow 세션을 번역하고 정리한 내용입니다. Airflow Summit 2022 sessions Airflow summit is the premier conference for the worldwide community of developers and users of Apache Airflow. airflowsummit.org 발표자는 데이터 엔지니어링 컨설턴트 Astronomer의 리드 엔지니어 time-based scheduling은 새벽5시에 땡하고 출발하는 마라톤에 비유 Event-based triggering은 팀..
-
컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 리뷰Review/Book 2022. 6. 27. 00:12
얼핏 책의 제목을 읽어보면 쿠버네티스와 도커에 대한 설명으로 가득할 것 같지만, 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커는 비단 쿠버네티스와 도커에 대한 설명으로 그치지 않고 컨테이너 인프라의 전반적인 환경에 대해 방점을 찍혀있는 책이다. 젠킨스와 프로메테우스 그라파나 등 컨테이너 기반의 환경에서 모니터링과 CI/CD 등 배포까지를 책에서는 담고있다. 폭넓게 인프라 전반적인 환경들을 다룰 수 있다는 점에서는 이 책이 유용하다고 느낄 수 있으나 도커와 쿠버네티스의 핵심만 공부하고 싶은 사람들에게는 사실 그다지 쓸모없는 내용처럼 느껴질 수도 있다. 사실 젠킨스나 프로메테우스와 같은 경우에는 툴처럼 사용하는 경향이 더 커서 핵심적인 내용만 알고 실무에 적용하기를 원하는 니즈가 더 강하게 느껴졌기 때문..
-
데이터 엔지니어의 바이블 빅데이터를 지탱하는 기술Review/Book 2022. 3. 11. 01:00
이 책을 접하게 된 계기 단톡방에서 추천 덕분이었다. 나는 한국 데이터 엔지니어 모임이라는 오픈 채팅방에 속해있는데 과장을 조금 보태서자면그냥 읽기만해도 실력이 쭉쭉 늘어나는 것같이 나에게 좋은 자양분이 되어주는 그런 단톡방이다. 그곳에서 다른 분이 데이터 엔지니어 공부 관련해서 추천하는 도서가 있느냐는 거의 고정적으로 올라오는 질문이 있다. 이 질문에 항상 꼽히는 답변으로 달리는 도서가 바로 이 빅데이터를 지탱하는 기술이라는 책. 책 자체는 2018년에 출간해서 그리 최신의 책은 아니라고 할 수 있다. 그럼에도 불구하고 지금까지 계속해서 회자되며 사람들이 추천하는 이유는 무엇일까. 데이터 엔지니어링의 A to Z를 담았다 가장 눈에 띄는 것은 목차에서 얼핏 느꼈다시피 데이터 분석에서 데이터 파이프라인,..