전체 글
-
글또 10기를 참여하며 가다듬는 마음가짐 기록log 2024. 10. 12. 01:24
글또를 만나게 된 계기처음 내가 글또를 알게 된 것은 내가 구독하고 있는 daily Dev Blog라는 메일링 서비스에서 였다. 이 메일링 서비스들은 개발 블로그들을 큐레이팅해서 매일마다 해당 블로그에 피드에 글을 쓰면 자동으로 아침에 목록들을 발송해주는 서비스다. 오랫동안 해당 서비스를 구독해오면서 특정 기간동안에 글또라는 명사가 들어간 글들이 한창 많이 올라오던 때가 있었다. 그래서 궁금해서 몇 번 그런 글들을 찾아보고 글또라는 명사에 대해서 검색해보고나서야 글또가 글쓰는 또라이가 세상을 바꾼다는 슬로건으로 6개월동안 지원자들이 각기 블로그에 2주에 1회 이상 글을 의무적으로 작성하는 커뮤니티 프로젝트다.글또에 참여한 사람들은 서로 피드백도 주고받고 글을 작성하지 않아서 얻게되는 예치금 패널티를 받지..
-
데이터 오케스트레이션 dagster와 dbt에 대해서 알아보기Review 2024. 7. 9. 23:08
dagster데이터 오케스트레이션을 강조하는 스케줄러op로 파이프라인의 잡을 정의하며 op로 이어놓은 workflow들은 job으로 구현한다각각 op와 job은 데코레이터로 정의된다하나의 스크립트에 다수의 pipeline을 포함할 수 있으며 이를 통해 여러 workflow를 구현가능하다→하나의 스크립트를 repository라 정의각각의 op는 별도의 input과 output을 가질 수 있으며, op간 변수 상속이 가능하다Op: 가장 작은 단위로, 개별 작업을 수행한다.Asset: job의 결과물로 생성된 데이터 또는 자료Job: 여러 op를 결합하여 특정 작업을 수행한다. job은 op 간의 실행 순서를 정의한다op와 asset은 task 단위라는 성격은 같지만 프로세싱하는 주체의 유무와 데펜던시의 업다..
-
스파크에서 지원하는 압축 알고리즘 비교Programming 2024. 6. 26. 23:54
압축 알고리즘 비교Configuration - Spark 3.5.1 Documentation Configuration - Spark 3.5.1 DocumentationSpark Configuration Spark provides three locations to configure the system: Spark properties control most application parameters and can be set by using a SparkConf object, or through Java system properties. Environment variables can be used to set per-macspark.apache.org현재 스파크 3.5 기준 압축 알고리즘으로 snappy, g..
-
도파민과의 전쟁 회고log 2024. 6. 10. 01:33
도파민과의 전쟁을 결심하다문득 침대에 널브러져 유튜브 쇼츠를 하염없이 바라보며 시간을 축낸적이 있지 않은가? 나의 경우가 그랬다. 잠깐만 쇼츠를 보고자 마음먹어도 넘기다보면 한시간은 우습게 시간이 훌쩍 지나가 있다.쇼츠만 보면 다행이다. 남는 시간 쪼개서 틈틈이 커뮤니티를 보는 시간도 많아서 합하면 꽤 많은 시간을 도파민을 생성시키는 것들에게 투자하고 있다.문제는 이 행동에는 관성이라는 것이 있어서 내가 문득 즐겁지도 않은데 이것을 습관적으로 계속해서 다음글, 다음 숏츠를 넘기며 보고있다는 점이다.스탠포드 신경학 교수 앤드류 후버만은 “만약 당신이 즐겁지도 않은 행동을 하면서 왜 이러고 있지? 라는 생각이 든다면 도파민 중독을 의심해보십시요.”라고 말한다.사실 도파민 중독이라는 말은 없다. 정확히는 도파..
-
당신의 인덱스는 안녕하신가요?(커버링 인덱스)Programming 2024. 3. 31. 21:10
인덱스를 적용하는 이유 인덱스는 데이터베이스 내의 데이터를 빠르게 찾을 수 있도록 도와주는 데이터 구조이다. 인덱스를 사용하지 않은 상태에서 데이터를 검색하면, DBMS는 요청된 데이터를 찾기 위해 테이블의 모든 행을 순차적으로 검색해야 한다. 이러한 과정을 풀 테이블 스캔(Full Table Scan)이라고 하며, 대량의 데이터가 저장된 테이블에 풀 스캔을 할 경우에 많은 시간이 소요될 수 있다. 인덱스를 적용하면, DBMS는 인덱스를 통해 데이터의 위치를 빠르게 찾아 접근할 수 있게 되어 검색 속도가 향상된다. 대부분 인덱스를 설명할 때 책의 목차에 비유하는 이유도 이 때문이다. 인덱스는 검색 시간과 쿼리 실행 시간을 단축시킴과 동시에 테이블 전체가 아닌 인덱스 내에서 스캔하기 때문에 DB에 부하도 ..
-
SparkSQL에서 증분 테이블 처리하기Programming 2024. 2. 25. 21:49
배경ETL처리시 Spark를 통해 Trasfroming을 하는데 1000만 로우가 넘는 테이블을 이관하며 기존 Overwrite하는 방식이 아닌 증분되는 양만큼만 반영하기로 함updated_at 컬럼으로 증분되는 양만 읽어서 기존 테이블에 upsert를 하는 방식현재 운영하는 데이터웨어하우스는 일반적인 RDB가 아닌 HDFS기반이므로 불변성을 위해서 upsert를 할 수 없음옵션Hudi or Delta Lake or Iceberg와 같은 동시성이 제공되는 오픈소스를 사용한다현재 실시간 테이블을 위해서 Delta Lake를 사용되고 있지만 이관을 위해서는 따로 사용하고 있지 않으므로 다른 테이블과 사용성 및 통합을 위해서 해당 옵션은 보류SQL 윈도우 함수를 통해서 증분된 만큼 처리하고 기존 값과 UNIO..
-
혼자공부하는 머신러닝+딥러닝 책 리뷰Review/Book 2024. 2. 18. 23:16
머신러닝과 딥러닝에 대한 공부를 시작하게 된 계기 나는 직업적으로 데이터 엔지니어라는 직군을 가지고 있고, 최근들어 GPT모델을 사용한 생성형 AI 모델의 급성장과 생태계 파괴수준의 시장에서의 영향력은 아무래도 일반적인 사무직보다 더 크게 다가왔고 실제로도 많은 일처리 방식이나 생활 양식에 등 다방면에 걸쳐서 변화를 이끌어냈다. 물론 이러한 일련의 과정들이 없었더라도 직장에서 데이터 사이언티스트와의 협업이라든가 모델링이 필요한 업무의 요구사항이라든가 이것을 배워야한다는 필요성과 가치는 항상 느껴오고 있었다. 다만 아직 업무에 적응하기도 바쁜데… 배워야할 것들이 아직 태산인데…따위와 같은 핑계 아닌 핑계들로 인해서 뒤로 미루고 애써 못본 척을 해야했다. 하지만 이제는 진짜로 뛰어들어야 할 때다. 더이상 늦..
-
나는 노션을 버리기로 결심했다log 2024. 2. 13. 00:44
초기 노션의 의도나 어플리케이션의 만듦새가 그당시에 크게 혁신이라고 느끼고 많은 이들이 같이 쓰고 느껴봣으면 좋겠는 마음에 장황하게 노션을 소개하는 포스팅 글을 올릴 만큼이나 신봉자에 가까웠다. 당시 많은 메모앱들을 사용하고 있었고 노션을 알게됨으로 인해서 단번에 노션 하나로 통합해서 모든 것을 노션으로 기록하고 클립핑하고 정리하기 시작했다. 하지만 나는 최근 몇가지 이유로 인해서 노션을 더이상 기록저장이나 정리용도로 사용하지 않기로 결심했다. 첫번째, 쓰지 않는 잡다한 기능들이 추가되면서 앱 자체가 무거워지기 시작했다. 사실 초기 노션부터 무겁고 느리다는 지적은 쭉 있었다. 현재까지 이를 노션팀에서 인지하고 수정하고 보완하는 작업이 진행되고 있지만 앱이 가진 한계가 있다보니 이를 완전히 극복하기는 힘들..