전체 글
-
[SLASH 24]전천후 데이터 분석을 위한 DW 설계 및 운영하기Review 2025. 10. 12. 23:59
고민의 시작의사 결정자가 체결된 월간 주문건수를 면밀히 사렾봐야할때나, 주문테이블, 체결 테이블, 데이터 필터링 등 복잡분석을 진행하기 전에 데이터를 찾고 전처리하는 시간을 줄일 수 없을까?→ 위 과정을 미리 해둔 데이터가 있다면 좋지 않을까?토스 증권에서 운영중인 Active User 테이블특정 지표를 설정하고(act_type 이라는 명칭으로) 다양한 관점에서 측정한 테이블을 만들어내는 파이프라인을 만들어서 사용위와같은 형식으로 100개가 넘는 act_type이 정의되어있음au_list라는 곳에 로그들을 다 밀어넣고 au_list는 daily로 존재하니 그거를 다시 montly, weekly, au_last(최종적으로 액티베이션 된 레코드 테이블), au_first(최초 인입된 레코드)로 구분하여 다시..
-
늦은 GCP AI Agents Live + Labs Seoul 후기Review/IT 2025. 9. 28. 17:14
7월 8일 8시30분부터 코엑스 컨벤션센터에서 AI Agents를 주제로 구글클라우드에서 컨퍼런스를 진행했다. 사람들이 엄청 줄서있는데 접수 데스크가 여러개고 확인히 상당히 빠르게 진행되어서 줄선거에 비해서 비교적 수월하게 입장 티켓과 중요한 점심식사 쿠폰 목걸이를 받을 수 있었다.7월달에 한 컨퍼런스를 왜 이제 올리느냐고한다면...그간 바빴다는 핑계밖에 댈 일이 없지만, 반대로 왜 7월달에 열린 이벤트를 이제서라도 올리려고 한다면 할말이 많다. 기대감을 가지고 참석한 만큼 실망감도 그만큼 컸기 때문인데 할말들을 머리속으로 생각하고 정리하다가 개인적인 일정들과 얽혀 늦어졌다고...밖에 일단은 더이상 할말이 없다.실망감에 대한 내용은 나중에 후술하도록할텐데 일단 시작은 좋았다.첫 오프닝은 흔히 과학 커뮤니..
-
2025 KafkaKRU(카프카 한국 사용자 모임) 2회 밋업 참석 후기Review 2025. 9. 11. 00:44
지난 9일에 여의도 IFC Three 건물에서카프카 밋업을 진행했다. 내가 들어가있는 카프카 오픈 채팅방에서 관련 공지가 떠서 확인했는데 때마침 내가 관심있어하는 주제인 AutoMQ와 아이스버그에 관련된 세션이 있어서 기대를 가지고 바로 신청했다. 커뮤니티나 채팅방에 제법 회원수가 있었고 35명만 뽑는 자리라서 제법 경쟁이 치열했지만 참가비 5000원을 바로 결제를 하고 다행이 참가 확정 안내 메일을 받아볼 수 있었다. 막상 참석하고보니 자리도 꽤 여유로웠고 참석하지 않은 사람도 있어서 좀더 규모있게 진행되었어도 괜찮겠다는 생각이 들었다.이건 호스트분께서도 장소가 처음이다보니 미처 예상치 못한 부분이라면서 환영사와 함께 추신을 덫붙였다. 밋업은 협찬 기업인 IBM의 건물에서 진행되었고 건물 화장실을 들르..
-
트리노에 고가용성을 더해줄 Trino GatewayProgramming 2025. 8. 13. 18:45
개요트리노 게이트웨이는 로드 벨런서, 프록시 서버, 멀티 클러스터를 위한 다양한 설정이 가능한 라우터 역할을 함lyft가 개발한 후 오픈소스화한 프로젝트 현재는 Trino 레포지토리 하위에 존재Pain point코디네이터의 HA가 불가능하기 때문에 Trino의 코디네이터는 SPOF라서 장애 상황에 취약함(코디네이터 장애시 모든 실행중인 쿼리 중단)코디네이터의 큐가 한정되어있어서 워커의 자원이 충분하더라도 모든 쿼리의 파싱과 분석, 최적화가 하나의 코디네이터에서 처리되기 때문에 쿼리 수가 증가하면 코디네이터의 CPU/메모리 부하가 급증하여 대기시간이 증가함업데이트시에 클러스터가 중지됨. 롤링업데이트가 되더라도 기존에 워커에서 작업중인 쿼리가 초기화됨Advantages고가용성 확보특정 워크로드나 특정 쿼리 ..
-
[트러블슈팅]DuckDB에서 복수의 parquet파일에 접근할때 컬럼을 못찾는 문제Programming/python 2025. 3. 30. 23:55
SELECT a, b, c, d, fFROM read_parquet("s3://some-data/schema_name/table_name/base_date=*/*", hive_partitioning=true)WHERE base_date = '2025-03-26'S3에 있는 하이브 파티셔닝된 폴더에 parquet파일이 저장되어있다고 했었을때, 위와 같은 쿼리로 duckdb sql같은 메소드를 사용할때 아래와 같은 에러가 발생한다.---------------------------------------------------------------------------BinderException Traceback (most recent call las..
-
[SLASH24]토스뱅크 오픈소스로 Hadoop 클러스터 구축기 정리Review 2025. 3. 16. 23:10
배경클러스터를 왜 다시 구축하게 되었는가토스뱅크의 초창기에는 임팔라와 HUE를 통해서 빅데이터를 다루었음인증은 엑티브 디렉토리, 인가는 아파치 센트리를 통해서 제공임팔라가 대화형 쿼리에 장점이 있었지만 모든 문제에 만능은 아니었기에 사용자들이 한계를 느꼈지만 다른 도구들은 보안을 적용하기에 제한이 있었고 그래서 하둡 클러스터 전반적으로 보안을 적용해서 액티브 디렉토리에 케베로스를 추가했고 아파치 레인저를 통해 모든 서비스에 인증 인가가 붙도록 변경함결론적으로 임팔라 뿐만이 아니라 빅데이터 문제를 풀기위해 알맞은 솔루션을 사용자들이 선택하여 사용할 수 있도록 만들었음오픈소스만을 사용하여 Hadoop 클러스터 구축하기이런 새로운 오픈소스 프로젝트를 배포하고 관리하기 위해서 Apache Bigtop, Ansi..
-
(if Kakao 2024)최적의 CDC 시스템 구축기 세션 정리Review 2025. 3. 2. 02:13
CDCCDC란 Change Data Capture의 약자로 데이터베이스에서 발생하는 변경 사항을 실시간으로 추적하고 기록하는 기술쿼리기반과 로그기반 두가지 CDC 방식이 있는데 쿼리 기반은 주기적으로 풀스캔 쿼리를 실행하게된다면 DB에 부하가 가해짐, 로그 기반은 트랜잭션 로그 기반으로 변경 사항을 추출하기 때문에 DB에 부하가 일어나지 않음CDC의 사용 사례고민사항여러가지 카카오 데이터들중에 민감 데이터는 마스킹이나 파싱을 통해서 파이프라인에 어떻게 녹여야하는지 많은 고민을 함초대규모 데이터를 어떻게 빠르게 처리해야할지정합성 검증을 어떻게 해야할지효율적인 적재 시스템이란 무엇인지Debezium가장 대중적인 트랜잭션 로그 기반 CDC 오픈소스카프카 커넥트 기반으로 동작다양한 DBMS 지원실시간으로 오프셋..
-
if kakao 2024 주키퍼 없이 운영하는 카프카 운영 노하우 세션 정리Review 2025. 2. 11. 23:09
if kakao 2024 컨퍼런스에서 재밌거나 나에게 유용하다고 생각하는 세션들을 정리하는 포스팅입니다. 원래는 세션들을 하나의 포스트에 정리하려고 했었는데 영상 하나의 길이가 30분이 넘어가고 다 중요하다고 생각해서 하나하나 정리하다보니 막상 생각보다 너무 길어지게 되어 세션별로 글을 나누게 되었습니다. 시작하기전에발표배경카카오에서 2022년 if 카카오에 카프카 운용후기를 발표했는데 당시 Kfrat모드를 적용할 예정이었던 것을 소개한 적 있음2022년 발표당시 3.3.1버전이었고 현재 3.8.0을 사용하고 있음버전이 올라가면서 여러 패치와 성능 개선이 있었음 발맞춰서 Kraft 모드로 변경함주키퍼 없는 카프카기존 주키퍼의 문제점리더 파티션 변경이 이루어졌을 때 주키퍼와 카프카 컨트롤러 그리고 다른 브..