3회 수군수군 데이터엔지니어 밋업 후기

log 2023. 11. 25. 22:41

수군수군 2회차에 이어서 3회에도 참여했다. 지난회와 조금 다른점들이 조금 눈에 띄었는데 지난회에 비해서 좌석이 다소 협소하다는 점과 기존에 피자와 치킨이었던 것에 비해 서브웨이로 단촐(?)하게 차려진 음식이 바뀌었다는 점, 그리고 생각보다 발표하는 내용과 주제들과 수준이 이전에 비해서 상당히 깊고 심오해졌다는 점이다.

전에는 POC같이 그냥 소개하는 수준의 내용도 부담없이 발표하고 토론하는 분위기었다면 좀더 실질적이고 경험적인 내용으로 변했다. 덕분에 나도 한번 발표를 해볼까 싶다가도 수준미달이 되어버릴 것 같은 두려움에 금새 그 마음을 접어버렸다.

기존에는 자리가 테이블로 잘 나뉘어져있어서 편하게 노트북하면서 세션들을 들을 수 있었는데 쇼파자리랑 테이블자리가 나뉘어져있고 모두 각자 모여서 이야기하기는 좋지만 스크린을 보고 앉기에는 다소 불편한 구조로 되어있고 와이파이도 없어서 일단 메모장에 오프라인으로 메모했다.

그래도 사실 세션보다는 네트워킹이 주 목적이었기 때문에 그전에 비교해서 아쉽다뿐이지 막 크게 거슬리는 단점까지는 아니었다. 대신에 이번에는 다양한 굿즈들을 받을 수 있어서 좋았다.

입장해서 네임택이랑 먹을 것, 굿즈 등을 받고나서 어디에 앉을지 고민하고 있던 찰나에 때마침 전에 카카오 테크밋업때 뵈었고 익히 저서와 유튜브, 블로그 등을 통해 잘 알고있던 최원영님이 계셨다. 저번에 판교에서 한번 인사를 나누었던 적이 있어서 반갑게 인사를 나누고 그 옆자리에 앉아서 세션들을 감상했다.

브라우징 코파일럿 RAG 도입기

브라우징 코플릿→ 보고있는 페이지 요약
파인튜닝, RAG를 활용 고민
새로운 컨텐츠에 즉각 대응을 위해 RAG를 선택
유튜브 자막 리스트로 전달
HTML은 특정 태그 제거 후 전달
PDF 전체 텍스트 전달
전체 내용이 필요한 것이 아니고 llm context 크기 제한 때문에 청크 조각을 냄
OpenAI 임베딩 API 호출이 제일 좋은편임
질의문 키워드 추출(LLM사용), 백터 검색+키워드 검색=하이브리드 검색

챌린징 했던 부분

청킹 사이즈
- 크게 쪼개면 임베딩 생성 비용 문제
- 정확도와 비용 사이의 트레이드오프
IO 작업 문제 없이 처리
- 오리지널과 청크 소스 동시에 async하게 동작
- OPENAI RPM limit에 맞춰 제한→ 엘라스틱서치의 스루풋 또한 조절
검색 키워드 제대로 뽑기
- 유저가 질문에서 특정 키워드를 입력하지 않는 이상 벡터서치로 넘기고있음

컨텐츠에 대한 이해

계층 구조 검색
- 청크를 트리 형식으로 나눠서 자름
- 레벨별로 추상화
- → 광범위한 질문에 따라 레벨별로 인덱싱해서 찾음
멀티 벡터 검색
- 예상 질문 만들어서 임베딩
- 오는 질문에 대해서 추상화된 질문을 만들고 추상화된 질문과 구체적인 질문으로 검색을 한다

kafkaStream을 이용한 changeLog 따라잡기

광고에 필요한 소재를 신디케이트하는 일을 하고있음
대형 쇼핑몰들의 상품들을 구글 ads account의 ad 그룹에 상품들을 매칭(Item matcher)
item matcher와 product를 실시간으로 매칭(M:N)

OLAP 개념과 서비스 소개

OLTP와 OLAP
- oltp 동시성 보장 crud, indexed
- 트렌젝션이 아닌 aggregate에 특장점
- oltp에서 olap으로 넣어주는 형태
큐빙
- 멀티 디멘전
- MOLAP, ROLAP, HOLAP
상용 OLAP 솔루션
- redshift, athena
- bigQuery
- Azure Synapse Analytics
레드시프트는 아테나에 비해 10배 빠른 성능 최적화에 따라 성능이 달라짐
RPU 최소 32 기준 시간당 14달러→ 월 1000만원 가량→ 비쌈....
킬린→ 하둡온리, 킬린과 드루이드가 양대산맥이었음→ 하둡기반이었기 때문에
클릭하우스는 다른 서비스와는 다르게 shared-Nothing Architecture로 단일 솔루션
- 다이나믹 메터리얼스 뷰를 제공해 소스를 계속 부으면 계속 어그리게이션된 뷰를 제공함 대신 새롭게 확장하기가 쉽지않음
- 카프카를 통해서 인입을 받을 수 있지만 배치에 더 좀 더 적합
- 이베이, 우버, 디즈니에서 자주 사용
드루이드
- 확장 가능한 형태의 분산 시스템
- segment→ 타임시리즈 단위로 잘개 쪼갬 큐빙을 미리하고 결과물을 뿌려줌
- 클러스터 형태기 때문에 리소스 자원이 커짐
Pinot
- 세그먼트 형태로 데이터 저장
- 드루이드보다 다양한 인덱서를 제공해서 그에 따른 쿼리속도 제공
세가지 비교하자면→클릭하우스는 실시간을 보장할 수 없으며 확장할 때 불편하지만 커뮤니티가 가장 활발
- 드루이드는 아키텍쳐에 대한 이해가 있어야하고 실시간에 최적의 성능을 낼 수 있음→ 유지보수 관리에 대해 스타트업같은 작은 규모의 회사에서는 힘듦
- pinot 드루이드와 유사하지만 좀더 단순화됨 복잡한 쿼리에 대한 처리가 제한적

네트워킹 시간이 오히려 짧게 느껴짐

다양한 회사들로 부터 인프라 구성은 어떻게 했는지, 경험담 같은 것들을 주고받으면서 시간이 빠르게 지나갔다.
이번에는 명함을 많이 가져가서 다행이 많이 뿌려서 좋았다.
세션 시간에 비해서 네트워킹 시간이 짧게 느껴질 정도로 시간이 부족했다.
발표와 네트워킹 시간의 다양한 사람들을 보면서 나의 부족함을 깨닫고 최근에 너무 자기개발에 부진했던 게 아니었는지 다시한번 생각해보는 계기가 되었다.
나를 일깨워준 여러가지로 가길 잘했다고 생각하는 모임이다.

저작자표시 비영리 변경금지 (새창열림)

'log' 카테고리의 다른 글

데보션 카프카 사용자 밋업 후기 (1)	2023.11.30
Confluent Kafka x Google Cloud Tech Day 정리 (0)	2023.11.29
2회 수군수군 데이터 엔지니어 모임 후기 (0)	2023.05.30
2023 트리노 밋업 후기 (0)	2023.05.23
2022년 결산 및 회고 (0)	2023.01.26

ABOUT ME

은유 개발 블로그 은유 개발 블로그

브라우징 코파일럿 RAG 도입기

챌린징 했던 부분

컨텐츠에 대한 이해

kafkaStream을 이용한 changeLog 따라잡기

OLAP 개념과 서비스 소개

네트워킹 시간이 오히려 짧게 느껴짐

'log' 카테고리의 다른 글

티스토리툴바

ABOUT ME

브라우징 코파일럿 RAG 도입기

챌린징 했던 부분

컨텐츠에 대한 이해

kafkaStream을 이용한 changeLog 따라잡기

OLAP 개념과 서비스 소개

네트워킹 시간이 오히려 짧게 느껴짐

'log' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바