data engineer
-
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기Review 2024. 7. 9. 23:08
dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pipeline을 포함할 수 있으며 이를 통해 여러 workflow를 구현가능하다→하나의 스크립트를 repository라 정의각각의 op는 별도의 input과 output을 가질 수 있으며, op간 변수 상속이 가능하다Op: 가장 작은 단위로, 개별 작업을 수행한다.Asset: job의 결과물로 생성된 데이터 또는 자료Job: 여러 op를 결합하여 특정 작업을 수행한다. job은 op 간의 실행 순서를 정의한다op와 asset은 task 단위라는 성격은 같지만 프로세싱하는 주체의 유무와 데펜던시의 업다..
-
Druid + superset로 BI 아키텍쳐 구축하기Programming 2021. 3. 28. 22:57
드루이드란? Druid는 대량의 트랜잭션 이벤트를 ingestion하고 탐색할 수 있도록 지원하는 엔진이다. 실시간과 시계열 데이터에서 100ms 이하의 쿼리 응답속도를 위해 설계된 오픈 소스 데이터 저장소 실시간/배치 데이터로 데이터를 수집해서 빠르게 BI쿼리(OLAP)를 처리, 분석하는 목적으로 사용 데이터 roll-up을 통해서 ingestion되는 원천 데이터를 취합할 수 있다. roll-up을 하면 원천 데이터의 저장 용량을 최소화 할 수 있고 스토리지 리소스를 절약하고 쿼리 속도를 빠르게 하지만 개별 이벤트들에 대해 쿼리할 수 없게 된다. OLAP(On-Line Analytical Processing)? OLAP, 온라인 분석 처리는 다차원 데이터 구조를 이용하여 다차원의 복잡한 질의를 고속으..