-
Confluent Kafka x Google Cloud Tech Day 정리log 2023. 11. 29. 16:55
6월달에 갔었던 행사라서...사실 지금 올리는게 무색하긴 하지만 정리 및 복기하는 겸 겸사겸사 올리게 된다. 카프카에 대해 막 관심이 올라가던 시점이라 신청해서 갔었는데 사실 전반적으로 아는 내용이기도하고 막 건질만한 내용은 크게 없었던 것 같아서 그냥 열심히 컨플루언트 홍보하는 내용만 있어서 다음부터 카프카를 목적으로는 가고싶은 생각이 크게 안들것 같은 행사였다. 컨플루언트쪽에서 주최한거라서 당연한 거긴 하다만
그래도 중간에 퀴즈같은게 있어서 맞춰서 책 한권을 꽁짜로 받아서 기분좋은 마음으로 집에 오긴했다.
데이터 스트리밍을 통한 실시간 데이터 활용 by Confluent
개요
- 19년도부터 구글 클라우드가 GCP 마켓플레이스에서 제공 및 과금 파트너쉽
- 맞춤형 추천, 실시간 거래, 도착 예상 시간 등 실시간 데이터 스트리밍이 필요한 시대
- 스트림 데이터를 처리하기 위해 아파치 카프카를 많이 활용함
- 기존 데이터 플랫폼
- 다른 시스템과 통합하기 어려운 경직된 아키텍처
- 비싼 초기 비용과 지속적인 유지보수 비용
- 제한된 분석 기능으로 인해 비즈니스 인사이트 발견이 느림
- 클라우드 기반 데이터 플랫폼
- 스토리지와 컴퓨팅을 분리하고 사용량 기반 요금제를 활용하여 TCO 절감
- 전반적인 유연성 및 비즈니스 민첩성 향상
- 머신 러닝과 같은 고급 기능을 갖춘 확장 가능한 분석으로 실시간 의사 결정 지원
- 실시간 처리, 사기 감지, 데이터 거버넌스
- 컨플루언트 Saas, 설치용 셀프매니지드 제공(클라우드나 온프레미스에 설치)
컨플루언트 클라우드를 왜 사용해야하는가
- 클라우드 네이티브(KORA엔진, 아파치 카프카 소스와 다름)
- 멀티 리전 및 AZ를 통한 99.99% uptime SLA
- 코라엔진
- 주키퍼대신에 KRaft로 구현됨
- kafka 클러스터를 더 많은 파티션과 토픽으로 확장 가능해짐
- 안정성 및 장애 조치 성능 향상
- 브로커를 늘리지 않고도 백엔드에 있는 오브젝트 스토리지를 써서 유연성을 높힘(스토리지 분리)
- 대부분의 카프카 비용은 네트워크비용에서 상당히 많이 들어가게됨
- 데이터를 검증하는 데이터 퀄리티 기능이 포함
- 플링크 인수함→컨플루언트에 플링크의 sql서비스를 24년도에 어나운스할 예정
- Azure, AWS, GCP 등 다양한 클라우드나 리전에서 사용할 수 있음
구글클라우드 빅쿼리를 활용한 실시간 데이터 분석
- Citizen Data Scientist
- 현업에서 업무를 아는 사람이 데이터 분석을 하는 시티즌 데이터 사이언티스트가 필요함
- ai나 머신러닝이 쉬워져야한다는 것이 트렌드와 방향성
- 서버리스 형식으로 fully managed 형식으로 제공
- Cloud DataFlow는 분산처리 프레임워크 like spark
- 전통적인 DW와는 다르게 스트리밍 데이터를 초당 기가바이트를 넣을 수 있다
- 전통적인 DW는 정제해서 넣어야하는데 빅쿼리는 원본 그대로 넣고 JSON 등 다양한 형태로 가져다 쓸수있다
- 검색인덱스 기능을 넣을 수 있다(bigsearch)
'log' 카테고리의 다른 글
제3회 Kakao Tech Meet 늦은 후기 (0) 2023.12.01 데보션 카프카 사용자 밋업 후기 (1) 2023.11.30 3회 수군수군 데이터엔지니어 밋업 후기 (0) 2023.11.25 2회 수군수군 데이터 엔지니어 모임 후기 (0) 2023.05.30 2023 트리노 밋업 후기 (0) 2023.05.23