Review
-
토스 slash23 데이터 세션 정리Review/IT 2023. 7. 1. 08:20
은행 데이터플랫폼 오픈소스로 전환하기 기존 정보계 시스템의 문제점 토스뱅크는 초기에 타은행 시스템 구조를 그대로 따와서 구축이 되었고, 타 은행들과 동일하게 계정계, 채널계, 정보계 세가지 영역으로 구성됨 mysql뿐만 아니라 MongoDB같은 NoSQL도 하둡으로 보내 분석에 활용하고 있다 보고서를 위해서 이런 데이터들을 오라클엑사로 다시 보내야하는 문제가 있어서 불필요한 데이터 이동이 생김 오라클 엑사의 비용이 하둡에 비해 10배나 높았으므로 하둡으로 시스템을 통합하려는 목표 기존에 잘 돌고 있는 정보계 시스템을 옮기는 방법 Concern & Challenge 기존에 잘 돌고 있는 것을 무엇으로, 어떻게 대체할 것인가 기존 시스템과 동일한 값임을 어떻게 보장할 것인가 이미 구축한 상황에서 옮기는데 드..
-
2023 NAVER deview trino, kafka 세션 리뷰Review/IT 2023. 3. 29. 00:07
CQuery: 우당탕탕 Trino와 썸타기 Hive+Tez vs Trino 하이브 대비 SQL 조회 성능이 매우 빠름 하이브는 Yarn에서 리소스를 할당받아 HDFS클러스터에서 데이터를 가져와 쿼리를 처리하는 시간 즉 얀 오버헤드와 쿼리타임이 합쳐진 시간이 전부 처리 시간이 됨 JVM위에서 띄우기 때문에 얀 오버헤드가 없음 코디네이터에서 필요한 메타데이터를 얻고 최적화된 쿼리플랜을 생성함 스케줄러에는 워커들에게 작업을 할당하면서 데이터 위치정보를 함께 넘겨줌 워커들에서 커넥터로 구분에 여러 디비에서 데이터를 가져와서 읽고 쓸 수 있음 여러 스테이지서 나눠진 파이프단위로 워커들의 메모리에 데이터를 올려서 처리 Trino 기능 커널, 디스크/네트워크 버퍼 등으로 20% 사용 Tread stacks, GC, ..
-
한국 데이터 엔지니어 모임 연사로 참여한 후기Review/IT 2023. 3. 26. 02:51
첫번째 밋업 개발관련 컨퍼런스에 참여한 것은 몇번 있었지만, 네트워킹을 위한 밋업 참여는 이번이 처음이다. 50~60명 규모로 모집되어 거의 2:1의 경쟁률로 거의 100명가까이 신청 했다고 한다. 한국 데이터 엔지니어 모임은 카카오톡 오픈챗방으로 벌써 1300명이 넘는 인원이 상주하며 데이터 엔지니어 직군과 관련된 정보와 질문들을 서로 공유하고 있다. 나도 그 톡방에 상주하며 여러 트렌드도 읽고 궁금한 점에 대해서는 질문도 하고, 때로 내가 아는 내용이 나오면 답변도 하면서 활동하고 있다.ㅡ활동명은 비밀이다. 채팅방에 팀장님도 계신다고 하여서 운신의 폭을 넓히기 위해서 조용하고 은밀하게 활동중이다.ㅡ그러던 중에 채팅방에서 제 2회 한국 데이터 엔지니어 모임 밋업을 진행한다는 공지를 보게 되었고 나는 이..
-
2022 Airflow Summit - Implementing Event Based Dags with AirflowReview/IT 2022. 8. 28. 16:44
https://airflowsummit.org/sessions/2022/ 에어플로우 2022 summit의 세션중에 Implementing Event Based Dags with Airflow 세션을 번역하고 정리한 내용입니다. Airflow Summit 2022 sessions Airflow summit is the premier conference for the worldwide community of developers and users of Apache Airflow. airflowsummit.org 발표자는 데이터 엔지니어링 컨설턴트 Astronomer의 리드 엔지니어 time-based scheduling은 새벽5시에 땡하고 출발하는 마라톤에 비유 Event-based triggering은 팀..
-
컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 리뷰Review/Book 2022. 6. 27. 00:12
얼핏 책의 제목을 읽어보면 쿠버네티스와 도커에 대한 설명으로 가득할 것 같지만, 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커는 비단 쿠버네티스와 도커에 대한 설명으로 그치지 않고 컨테이너 인프라의 전반적인 환경에 대해 방점을 찍혀있는 책이다. 젠킨스와 프로메테우스 그라파나 등 컨테이너 기반의 환경에서 모니터링과 CI/CD 등 배포까지를 책에서는 담고있다. 폭넓게 인프라 전반적인 환경들을 다룰 수 있다는 점에서는 이 책이 유용하다고 느낄 수 있으나 도커와 쿠버네티스의 핵심만 공부하고 싶은 사람들에게는 사실 그다지 쓸모없는 내용처럼 느껴질 수도 있다. 사실 젠킨스나 프로메테우스와 같은 경우에는 툴처럼 사용하는 경향이 더 커서 핵심적인 내용만 알고 실무에 적용하기를 원하는 니즈가 더 강하게 느껴졌기 때문..
-
데이터 엔지니어의 바이블 빅데이터를 지탱하는 기술Review/Book 2022. 3. 11. 01:00
이 책을 접하게 된 계기 단톡방에서 추천 덕분이었다. 나는 한국 데이터 엔지니어 모임이라는 오픈 채팅방에 속해있는데 과장을 조금 보태서자면그냥 읽기만해도 실력이 쭉쭉 늘어나는 것같이 나에게 좋은 자양분이 되어주는 그런 단톡방이다. 그곳에서 다른 분이 데이터 엔지니어 공부 관련해서 추천하는 도서가 있느냐는 거의 고정적으로 올라오는 질문이 있다. 이 질문에 항상 꼽히는 답변으로 달리는 도서가 바로 이 빅데이터를 지탱하는 기술이라는 책. 책 자체는 2018년에 출간해서 그리 최신의 책은 아니라고 할 수 있다. 그럼에도 불구하고 지금까지 계속해서 회자되며 사람들이 추천하는 이유는 무엇일까. 데이터 엔지니어링의 A to Z를 담았다 가장 눈에 띄는 것은 목차에서 얼핏 느꼈다시피 데이터 분석에서 데이터 파이프라인,..
-
분산 쿼리 엔진 prestoSQL의 바뀐 이름 TrinoReview 2022. 1. 4. 00:31
Trino? 처음듣는데? 페이스북 내부 직원 약 1,000명은 Presto를 매일 페타바이트가 넘는 데이터를 스캔하는 30,000건이 넘는 쿼리를 페이스북 데이터를 조회하는데 사용하고 있다. presto는 페이스북이 최초 개발하여 오픈 소스로 공개한 대화식 데이터 쿼리 서비스. 이를 이용해 다양한 데이터베이스에 대한 일관된 ANSI SQL 질의가 가능하다. 빠른 속도를 보장하기 위해 엔진 레벨에서 분산 컴퓨팅 기법이 사용된다. 2020년 12월 27일 Presto 초기 멤버들이 페이스북을 나와 만든 PrestoSQL 프로젝트가 Trino로 리브랜딩 됨 350버전 이후로 prestoSQL에서 Trino로 완전히 이름이 바뀜 Amazon은 presto 0.172 기반으로 시작해 자체 개발한 Amazon At..
-
재택근무를 희망하는 히치하이커를 위한 안내서Review 2021. 10. 17. 20:18
달콤했던 재택근무를 떠나보내며 어느새 코로나 일별 확진자 수가 3천명을 넘겼다는 소식이 뉴스를 통해 들리고, 몇 주째 2천여명 밑으로 떨어질 기미가 보이지 않는다. 예전에 1,000명을 넘겨도 직장 동료들과 친구들끼리 서로 걱정하며 안부를 전하던 것이 무색할 만큼 후반부 드래곤볼의 전투력 인플레이션마냥 이제는 2000명 정도는 “크큭, 고작 그 정도 수치인가?”속으로 코웃음치며 무뎌져 간다. 물론 그렇다고 이러한 상황에 대비하지 않는 것은 아니다. 백신 1차 접종도 받고, 어지간하면 집 안에서 해결하고 약속도 거리 두기 단계에 맞춰서 많은 인원 수가 모이는 모임같은 경우는 지양했다. 집돌이인 성향도 한 몫하긴 했지만 지금까지 간헐적으로 회사에서 재택을 하기는 했지만 이런 외부 상황과 나의 개인적인 사유를..