ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Confluent Kafka x Google Cloud Tech Day 정리
    log 2023. 11. 29. 16:55

    6월달에 갔었던 행사라서...사실 지금 올리는게 무색하긴 하지만 정리 및 복기하는 겸 겸사겸사 올리게 된다. 카프카에 대해 막 관심이 올라가던 시점이라 신청해서 갔었는데 사실 전반적으로 아는 내용이기도하고 막 건질만한 내용은 크게 없었던 것 같아서 그냥 열심히 컨플루언트 홍보하는 내용만 있어서 다음부터 카프카를 목적으로는 가고싶은 생각이 크게 안들것 같은 행사였다. 컨플루언트쪽에서 주최한거라서 당연한 거긴 하다만

    그래도 중간에 퀴즈같은게 있어서 맞춰서 책 한권을 꽁짜로 받아서 기분좋은 마음으로 집에 오긴했다.

    데이터 스트리밍을 통한 실시간 데이터 활용 by Confluent

    개요

    • 19년도부터 구글 클라우드가 GCP 마켓플레이스에서 제공 및 과금 파트너쉽
    • 맞춤형 추천, 실시간 거래, 도착 예상 시간 등 실시간 데이터 스트리밍이 필요한 시대
    • 스트림 데이터를 처리하기 위해 아파치 카프카를 많이 활용함
    • 기존 데이터 플랫폼
      • 다른 시스템과 통합하기 어려운 경직된 아키텍처
      • 비싼 초기 비용과 지속적인 유지보수 비용
      • 제한된 분석 기능으로 인해 비즈니스 인사이트 발견이 느림
    • 클라우드 기반 데이터 플랫폼
      • 스토리지와 컴퓨팅을 분리하고 사용량 기반 요금제를 활용하여 TCO 절감
      • 전반적인 유연성 및 비즈니스 민첩성 향상
      • 머신 러닝과 같은 고급 기능을 갖춘 확장 가능한 분석으로 실시간 의사 결정 지원
    • 실시간 처리, 사기 감지, 데이터 거버넌스
    • 컨플루언트 Saas, 설치용 셀프매니지드 제공(클라우드나 온프레미스에 설치)

    컨플루언트 클라우드를 왜 사용해야하는가

    • 클라우드 네이티브(KORA엔진, 아파치 카프카 소스와 다름)
    • 멀티 리전 및 AZ를 통한 99.99% uptime SLA
    • 코라엔진
      • 주키퍼대신에 KRaft로 구현됨
      • kafka 클러스터를 더 많은 파티션과 토픽으로 확장 가능해짐
      • 안정성 및 장애 조치 성능 향상
      • 브로커를 늘리지 않고도 백엔드에 있는 오브젝트 스토리지를 써서 유연성을 높힘(스토리지 분리)
    • 대부분의 카프카 비용은 네트워크비용에서 상당히 많이 들어가게됨
    • 데이터를 검증하는 데이터 퀄리티 기능이 포함
    • 플링크 인수함→컨플루언트에 플링크의 sql서비스를 24년도에 어나운스할 예정
    • Azure, AWS, GCP 등 다양한 클라우드나 리전에서 사용할 수 있음

    구글클라우드 빅쿼리를 활용한 실시간 데이터 분석

    • Citizen Data Scientist
      • 현업에서 업무를 아는 사람이 데이터 분석을 하는 시티즌 데이터 사이언티스트가 필요함
    • ai나 머신러닝이 쉬워져야한다는 것이 트렌드와 방향성
    • 서버리스 형식으로 fully managed 형식으로 제공
    • Cloud DataFlow는 분산처리 프레임워크 like spark
    • 전통적인 DW와는 다르게 스트리밍 데이터를 초당 기가바이트를 넣을 수 있다
    • 전통적인 DW는 정제해서 넣어야하는데 빅쿼리는 원본 그대로 넣고 JSON 등 다양한 형태로 가져다 쓸수있다
    • 검색인덱스 기능을 넣을 수 있다(bigsearch)

    댓글

Copyright 2023. 은유 All rights reserved.