Review
-
[SLASH24]토스뱅크 오픈소스로 Hadoop 클러스터 구축기 정리Review 2025. 3. 16. 23:10
배경클러스터를 왜 다시 구축하게 되었는가토스뱅크의 초창기에는 임팔라와 HUE를 통해서 빅데이터를 다루었음인증은 엑티브 디렉토리, 인가는 아파치 센트리를 통해서 제공임팔라가 대화형 쿼리에 장점이 있었지만 모든 문제에 만능은 아니었기에 사용자들이 한계를 느꼈지만 다른 도구들은 보안을 적용하기에 제한이 있었고 그래서 하둡 클러스터 전반적으로 보안을 적용해서 액티브 디렉토리에 케베로스를 추가했고 아파치 레인저를 통해 모든 서비스에 인증 인가가 붙도록 변경함결론적으로 임팔라 뿐만이 아니라 빅데이터 문제를 풀기위해 알맞은 솔루션을 사용자들이 선택하여 사용할 수 있도록 만들었음오픈소스만을 사용하여 Hadoop 클러스터 구축하기이런 새로운 오픈소스 프로젝트를 배포하고 관리하기 위해서 Apache Bigtop, Ansi..
-
(if Kakao 2024)최적의 CDC 시스템 구축기 세션 정리Review 2025. 3. 2. 02:13
CDCCDC란 Change Data Capture의 약자로 데이터베이스에서 발생하는 변경 사항을 실시간으로 추적하고 기록하는 기술쿼리기반과 로그기반 두가지 CDC 방식이 있는데 쿼리 기반은 주기적으로 풀스캔 쿼리를 실행하게된다면 DB에 부하가 가해짐, 로그 기반은 트랜잭션 로그 기반으로 변경 사항을 추출하기 때문에 DB에 부하가 일어나지 않음CDC의 사용 사례고민사항여러가지 카카오 데이터들중에 민감 데이터는 마스킹이나 파싱을 통해서 파이프라인에 어떻게 녹여야하는지 많은 고민을 함초대규모 데이터를 어떻게 빠르게 처리해야할지정합성 검증을 어떻게 해야할지효율적인 적재 시스템이란 무엇인지Debezium가장 대중적인 트랜잭션 로그 기반 CDC 오픈소스카프카 커넥트 기반으로 동작다양한 DBMS 지원실시간으로 오프셋..
-
if kakao 2024 주키퍼 없이 운영하는 카프카 운영 노하우 세션 정리Review 2025. 2. 11. 23:09
if kakao 2024 컨퍼런스에서 재밌거나 나에게 유용하다고 생각하는 세션들을 정리하는 포스팅입니다. 원래는 세션들을 하나의 포스트에 정리하려고 했었는데 영상 하나의 길이가 30분이 넘어가고 다 중요하다고 생각해서 하나하나 정리하다보니 막상 생각보다 너무 길어지게 되어 세션별로 글을 나누게 되었습니다. 시작하기전에발표배경카카오에서 2022년 if 카카오에 카프카 운용후기를 발표했는데 당시 Kfrat모드를 적용할 예정이었던 것을 소개한 적 있음2022년 발표당시 3.3.1버전이었고 현재 3.8.0을 사용하고 있음버전이 올라가면서 여러 패치와 성능 개선이 있었음 발맞춰서 Kraft 모드로 변경함주키퍼 없는 카프카기존 주키퍼의 문제점리더 파티션 변경이 이루어졌을 때 주키퍼와 카프카 컨트롤러 그리고 다른 브..
-
네이버 DAN24 플링크와 아이스버그를 활용한 데이터 웨어하우스 세션 정리Review 2025. 1. 19. 02:24
DAN24DAN은 platform의 한국어 표현으로 네이버가 공유하는 플랫폼의 역할과 비전을 공유하는 네이버의 통합 컨퍼런스라고 한다. 근데 이왕 한국어표현을 가져올거면 DAN까지 단이라고 하지..처음에는 데이터 어쩌구 네이버의 줄인말인줄 알았다.아무튼 네이버 컨퍼런스가 열린다는 소식을 듣고 신청을 하려고했는데 추첨제가 아닌 선착순이었고 무려 5분도 채 되지 않아서 접수가 마감되었다는 소식에 허탈함과 함께 컨퍼런스 영상이 올라오기만을 기다렸다.그리고 드디어 컨퍼런스 영상이 올라왔고 세션들 중에서 제일 보고싶었던 해당 세션을 보고 내용을 정리해봤다. 사실 여러 다른 세션들도 정리하고 싶었으나 이번 컨퍼런스는 ML이나 AI에 많이 초점이 맞춰지고 내가 관심있는 엔지니어링 분야쪽은 그렇게 많지 않았어서 결과적..
-
개발자가 영어도 잘해야 하나요?Review/Book 2024. 11. 24. 02:26
사실 책 제목이 아닌 다른 제목으로 하고 싶었는데, 책 제목 자체가 이미 후킹하기에 좋은 내용으로 꾸며져있어서 그냥 그대로 책의 제목을 인용해서 이 글의 제목으로 하기로 결정했다.이 제목에 이끌려 이 글을 읽게 된 사람도 분명 있을 것이다. 나역시도 이 책을 그런 사유로 출판사에 리뷰이벤트 신청을 했고 운좋게 당첨되어서 이렇게 서평을 남기게 되었다.제목에 대한 이야기를 이어서하자면 “개발자가 영어도 잘해야 하나요?”대답에 대한 나의 개인적인 대답은 반드시 그렇지는 않다.다만 저자는 점차 원격근무가 활성화되고 초연결사회로 변화함에 따라서 글로벌화되면서 커리어 성장에 분명히 도움이 된다는 점을 강조하며 최신 개발 트렌드나 기술들은 언제나 항상 영어로 먼저 쓰여지기 때문에 영어는 개발 생산성을 향상시키는 도구..
-
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기Review 2024. 7. 9. 23:08
dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pipeline을 포함할 수 있으며 이를 통해 여러 workflow를 구현가능하다→하나의 스크립트를 repository라 정의각각의 op는 별도의 input과 output을 가질 수 있으며, op간 변수 상속이 가능하다Op: 가장 작은 단위로, 개별 작업을 수행한다.Asset: job의 결과물로 생성된 데이터 또는 자료Job: 여러 op를 결합하여 특정 작업을 수행한다. job은 op 간의 실행 순서를 정의한다op와 asset은 task 단위라는 성격은 같지만 프로세싱하는 주체의 유무와 데펜던시의 업다..
-
혼자공부하는 머신러닝+딥러닝 책 리뷰Review/Book 2024. 2. 18. 23:16
머신러닝과 딥러닝에 대한 공부를 시작하게 된 계기 나는 직업적으로 데이터 엔지니어라는 직군을 가지고 있고, 최근들어 GPT모델을 사용한 생성형 AI 모델의 급성장과 생태계 파괴수준의 시장에서의 영향력은 아무래도 일반적인 사무직보다 더 크게 다가왔고 실제로도 많은 일처리 방식이나 생활 양식에 등 다방면에 걸쳐서 변화를 이끌어냈다. 물론 이러한 일련의 과정들이 없었더라도 직장에서 데이터 사이언티스트와의 협업이라든가 모델링이 필요한 업무의 요구사항이라든가 이것을 배워야한다는 필요성과 가치는 항상 느껴오고 있었다. 다만 아직 업무에 적응하기도 바쁜데… 배워야할 것들이 아직 태산인데…따위와 같은 핑계 아닌 핑계들로 인해서 뒤로 미루고 애써 못본 척을 해야했다. 하지만 이제는 진짜로 뛰어들어야 할 때다. 더이상 늦..
-
책 카프카 데이터 플랫폼의 최강자 리뷰Review/Book 2023. 12. 30. 20:19
무작정 카프카에 대해서 공부해보기 최근 회사에서 카프카를 프로젝트에 사용하게 되면서 여러 블로그나 도큐먼트들을 전전하며 파편적인 지식들만을 얻다가 카프카를 유지보수하게 될 일이 많이 생기게 되면서 기존 카프카의 기본적인 개념만 알고있었던 나는 실질적으로 어떤 아키텍쳐로 카프카가 활요오디는지 그리고 운영할 때 알아둬야하는 지식이나 주의해야 할 점은 무엇인지 등에 대해서 전반적으로 알아보려고 마음먹었을 때. 마침 이 책을 사두었던 것이 기억나서 꺼내서 다시 읽게 되었다. 다만 동명 저자의 최신 개정판인 '실전 카프카 개발부터 운영까지'라는 책 또한 구매하게 되어서 살짝 이 책의 위치가 애매해지게 되었는데, 그렇다고 아예 안읽을 수도 없어서 우선 가볍게 이 책을 읽고 다음으로 '실전 카프카 개발부터 운영까지'..