ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2회 수군수군 데이터 엔지니어 모임 후기
    log 2023. 5. 30. 01:42

    링크드인쪽에서 몇몇분들을 중심으로 데이터 엔지니어 모임을 개최한다고는 소식을 전해들었다. 링크드인을 개인적으로 따로 하지는 않아서 1회 밋업때 발표 자료인 당근마켓의 에어바이트 발표를 재밌게 봤던 기억이 있다. 그래서 혹시나 이 밋업이 다음번에도 진행되면 참석하면 좋겠다는 생각에 찾고 찾아서 수군수군 데이터 엔지니어 메일링 서비스에 가입했고 그 기억도 잊어버릴 어느 즈음해서 잠들어있는 줄만 알았던 수군수군 데이터 엔지니어 발신자를 통해서 메일이 하나 날아왔다.

    https://page.stibee.com/subscriptions/226823

     

    수군수군 데이터 엔지니어 밋업 메일링 리스트

    언젠가 또 개최될 수군수군 데이터 엔지니어 밋업 개최 소식을 메일로 받아보고 싶으시다면 이메일을 적어주세요.

    page.stibee.com

    이 페이지에가면 밋업 개최 소식을 메일로 받아볼 수 있으니 관심있는 데이터 엔지니어라면 구독을 해두자

    밋업은 역삼역에 있는 구글 코리아 GFC건물에서 진행됐다. 아마 구글코리아의 카페테리아로 보이는 곳에서 진행이 됐는데 입장하자마자 건물 출입을 위한 QR코드와 이름이 적힌 명찰을 받고 웰컴 드링크(?)인 한맥의 맥주를 받아서 각자 보이는 자리에 앉았다.

    나는 I이자 아싸답게 구석에 아무도 안 앉아있는 자리에 조용히 가서 앉아 있었는데 다행이 하나둘씩 삼삼오오 모여서 어느새 4명이 꽉차있는 테이블이 되었다.

    가볍게 인사를 나누고 다같이 과자와 맥주를 먹으며 준비된 세션을 보았다.

    백터 유사도 검색으로 추천 서비스 구현하기

    • 빅쿼리는 회사에서만 사용하는 쿼리 엔진에서 파생됐다
    • 빅쿼리의 수행 연산은 dremel을 통해서 진행되며 아파치 드릴로 오픈소스 버전이 나옴

    • 보통은 two stage로 나뉨 retrieval->ranking
    • two tower model을 활용해 사이드 피쳐들을 모두 활용할 수 있음
    • 이베이, 유튜브, 구글 플레이 스토어에서도 이 투 타워 모델을 활용함
    • nvidia merlin, tensorflow recommenders가 이 투타워모델을 패키징한 모델이며 이것들을 사용하면 투타워모델을 손쉽게 다룰 수 있음
    • 스택 오버플로우 추천 시스템을 예제로 보여줌
      • LangChaind LLM을 사용하면 손쉽게 아키텍처 구성 가능

    Apache Iceberg on GCP, AWS

    • storage format에는 parquet, orc, arvo 등등이 있다
    • 이런 storage foramt들은 스키마 미스매치가 발생하거나 스키마 에볼루션이 안된다 특히 write할 때 문제가 많이 발생한다. 그래서 이런 단점들을 보완하고자 table format이 대두되게 된다
    • 빅데이터 플랫폼에서는 증분 업데이트나 머지, 업서트, 스키마 에볼루션 등이 문제가 된다
    • 초기 테이블 포맷 테이블은 여러 파티션을 트렌잭셔널하게 업데이트도 안되고, 클라우드 스토리지에 적합하지 않은 설계(rename, list...) 등 hive 테이블에서 데이터 변경이 비효율적이다.
    • iceberg는 메타데이터가 중요 버전별로 메타데이터를 찍고 메타데이터만 보면 파일들이 어디 흩어져있는지 알 수 있다
      • 증분데이터에 대해서도 유지보수가 쉬워진다
    • 클라우드 환경에서는 AWS에서 후디를 풀 서포트한다(+EMR)
    • 델타레이크는 aws 아테나에서는 제약이 많다
    • iceberg는 aws 아테나에서 제약이 있긴하지만 거의 다 가능하다
    • 결론
      • Hudi는 오래된 프로젝트지만 클라우드에서 쓰기에는 조금 애매한 느낌
      • 델타레이크는 가장 핫하지만 AWS나 GCP에서 풀서포트를 받을 수 있을지 애매한 느낌..
      • 아이스버그는 완전 오픈소스, 신생프로젝트, 클라우드 프로바이더들이 전폭적으로 지지한다
    • 하지만 데이터브릭스에서 돈주고 이 세 프로젝트를 밴치마크했는데 벤치마크상 아이스버그가 델타레이크랑 속도가 세배나 차이날정도로 제일 느린 결과가..🥲

    세션보다는 네트워킹이 중점인 밋업

    한국 데이터 엔지니어 모임 이후로 데이터 엔지니어 모임은 이번이 두번째인데 정말 재밌었다. 공감가는 얘기들도 많이 오가고 다른 회사는 어떻게 인프라를 구성하는지 어떤 오픈소스들을 사용하는지 귀동냥으로 많이 듣고 많이 배웠던 하루다.

    아쉬웠던건 명함을 몇장 못들고가서 받은만큼 내 명함을 많이 뿌리지 못한 것...그게 좀 아쉽다. 다음 밋업때는 그런 실수없도록 넉넉하게 챙겨가도록 해야겠다.

     

    댓글

Copyright 2023. 은유 All rights reserved.