Review
-
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기Review 2024. 7. 9. 23:08
dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pipeline을 포함할 수 있으며 이를 통해 여러 workflow를 구현가능하다→하나의 스크립트를 repository라 정의각각의 op는 별도의 input과 output을 가질 수 있으며, op간 변수 상속이 가능하다Op: 가장 작은 단위로, 개별 작업을 수행한다.Asset: job의 결과물로 생성된 데이터 또는 자료Job: 여러 op를 결합하여 특정 작업을 수행한다. job은 op 간의 실행 순서를 정의한다op와 asset은 task 단위라는 성격은 같지만 프로세싱하는 주체의 유무와 데펜던시의 업다..
-
혼자공부하는 머신러닝+딥러닝 책 리뷰Review/Book 2024. 2. 18. 23:16
머신러닝과 딥러닝에 대한 공부를 시작하게 된 계기 나는 직업적으로 데이터 엔지니어라는 직군을 가지고 있고, 최근들어 GPT모델을 사용한 생성형 AI 모델의 급성장과 생태계 파괴수준의 시장에서의 영향력은 아무래도 일반적인 사무직보다 더 크게 다가왔고 실제로도 많은 일처리 방식이나 생활 양식에 등 다방면에 걸쳐서 변화를 이끌어냈다. 물론 이러한 일련의 과정들이 없었더라도 직장에서 데이터 사이언티스트와의 협업이라든가 모델링이 필요한 업무의 요구사항이라든가 이것을 배워야한다는 필요성과 가치는 항상 느껴오고 있었다. 다만 아직 업무에 적응하기도 바쁜데… 배워야할 것들이 아직 태산인데…따위와 같은 핑계 아닌 핑계들로 인해서 뒤로 미루고 애써 못본 척을 해야했다. 하지만 이제는 진짜로 뛰어들어야 할 때다. 더이상 늦..
-
책 카프카 데이터 플랫폼의 최강자 리뷰Review/Book 2023. 12. 30. 20:19
무작정 카프카에 대해서 공부해보기 최근 회사에서 카프카를 프로젝트에 사용하게 되면서 여러 블로그나 도큐먼트들을 전전하며 파편적인 지식들만을 얻다가 카프카를 유지보수하게 될 일이 많이 생기게 되면서 기존 카프카의 기본적인 개념만 알고있었던 나는 실질적으로 어떤 아키텍쳐로 카프카가 활요오디는지 그리고 운영할 때 알아둬야하는 지식이나 주의해야 할 점은 무엇인지 등에 대해서 전반적으로 알아보려고 마음먹었을 때. 마침 이 책을 사두었던 것이 기억나서 꺼내서 다시 읽게 되었다. 다만 동명 저자의 최신 개정판인 '실전 카프카 개발부터 운영까지'라는 책 또한 구매하게 되어서 살짝 이 책의 위치가 애매해지게 되었는데, 그렇다고 아예 안읽을 수도 없어서 우선 가볍게 이 책을 읽고 다음으로 '실전 카프카 개발부터 운영까지'..
-
토스 slash23 데이터 세션 정리Review/IT 2023. 7. 1. 08:20
은행 데이터플랫폼 오픈소스로 전환하기 기존 정보계 시스템의 문제점 토스뱅크는 초기에 타은행 시스템 구조를 그대로 따와서 구축이 되었고, 타 은행들과 동일하게 계정계, 채널계, 정보계 세가지 영역으로 구성됨 mysql뿐만 아니라 MongoDB같은 NoSQL도 하둡으로 보내 분석에 활용하고 있다 보고서를 위해서 이런 데이터들을 오라클엑사로 다시 보내야하는 문제가 있어서 불필요한 데이터 이동이 생김 오라클 엑사의 비용이 하둡에 비해 10배나 높았으므로 하둡으로 시스템을 통합하려는 목표 기존에 잘 돌고 있는 정보계 시스템을 옮기는 방법 Concern & Challenge 기존에 잘 돌고 있는 것을 무엇으로, 어떻게 대체할 것인가 기존 시스템과 동일한 값임을 어떻게 보장할 것인가 이미 구축한 상황에서 옮기는데 드..
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
2022 Airflow Summit - Implementing Event Based Dags with AirflowReview/IT 2022. 8. 28. 16:44
https://airflowsummit.org/sessions/2022/ 에어플로우 2022 summit의 세션중에 Implementing Event Based Dags with Airflow 세션을 번역하고 정리한 내용입니다. Airflow Summit 2022 sessions Airflow summit is the premier conference for the worldwide community of developers and users of Apache Airflow. airflowsummit.org 발표자는 데이터 엔지니어링 컨설턴트 Astronomer의 리드 엔지니어 time-based scheduling은 새벽5시에 땡하고 출발하는 마라톤에 비유 Event-based triggering은 팀..
-
컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 리뷰Review/Book 2022. 6. 27. 00:12
얼핏 책의 제목을 읽어보면 쿠버네티스와 도커에 대한 설명으로 가득할 것 같지만, 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커는 비단 쿠버네티스와 도커에 대한 설명으로 그치지 않고 컨테이너 인프라의 전반적인 환경에 대해 방점을 찍혀있는 책이다. 젠킨스와 프로메테우스 그라파나 등 컨테이너 기반의 환경에서 모니터링과 CI/CD 등 배포까지를 책에서는 담고있다. 폭넓게 인프라 전반적인 환경들을 다룰 수 있다는 점에서는 이 책이 유용하다고 느낄 수 있으나 도커와 쿠버네티스의 핵심만 공부하고 싶은 사람들에게는 사실 그다지 쓸모없는 내용처럼 느껴질 수도 있다. 사실 젠킨스나 프로메테우스와 같은 경우에는 툴처럼 사용하는 경향이 더 커서 핵심적인 내용만 알고 실무에 적용하기를 원하는 니즈가 더 강하게 느껴졌기 때문..