dagster
-
dbt Meetup에서 'dagster로 알아보는 dbt'를 주제로 발표한 후기log 2024. 12. 22. 23:29
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pblog.metafor.kr처음 스피커 제안을 받은 것은 저번달, 데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기라는 블로그 포스팅에 댓글이 시초였다.서울 dbt 커뮤니티 관리자 혜릭님께서 밋업 스피커로 모시고싶다는 댓글을 받고 고민하다가 연말을 장식하는 이벤트이자 나에게 좋은 기회가 될 수 있을 것 같아서 메일로 연락을 주고 받았다.필요한 톤앤매너와 주제를 확정하고 최종적으로 dagster로 알아보는 dbt라는 주제로 dbt..
-
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기Review 2024. 7. 9. 23:08
dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pipeline을 포함할 수 있으며 이를 통해 여러 workflow를 구현가능하다→하나의 스크립트를 repository라 정의각각의 op는 별도의 input과 output을 가질 수 있으며, op간 변수 상속이 가능하다Op: 가장 작은 단위로, 개별 작업을 수행한다.Asset: job의 결과물로 생성된 데이터 또는 자료Job: 여러 op를 결합하여 특정 작업을 수행한다. job은 op 간의 실행 순서를 정의한다op와 asset은 task 단위라는 성격은 같지만 프로세싱하는 주체의 유무와 데펜던시의 업다..
-
airflow의 새로운 경쟁자 오케스트레이션 플랫폼 dagsterProgramming/python 2021. 12. 23. 23:42
Open Source Data Stack Conference 아래 내용은 위 동영상의 내용을 번안하고 정리한 내용입니다. 위 사진의 기술들은 다양한 방식들로 서로 의존성이 존재한다. 예를들어 스노우플로우나 다른 데이터 웨어하우스에서 데이터가 만들어지기 전까지 dbt를 실행할 수 없다. 그리고 dbt가 그것의 모델을 업데이트하기 전까지 Grouparoo같은 리버스 ETL은 새로운 정보를 적재할 수 없다. 이런 의존성들간에 Ordering과 Excute를 조율하는 것이 오케스트레이션의 목적이다. 왜 dagster여야 하는가? 전통적인 오케스트레이션은 스케줄링과 실행을 통합하는 시스템과 가시적이고 알림을 운영할 수 있어야 한다. 여기에 더해져서 덱스터는 유용한 metadata를 생성하는 과정에서 데이터가 어디..