전체 글
-
오픈소스 컨트리뷰션 아카데미 발대식 후기log 2022. 7. 28. 00:20
지난 주말 9일 토요일 오픈소스 컨트리뷰션 아카데미의 발대식이 진행되었다. 발대식은 말그대로 앞으로의 스케줄과 멘토와 멘티들 서로 얼굴을 익히는 자리였다. 발대식과 별개로 멘토와 멘티들끼리 모여서 앞으로의 계획이나 어떻게 기여할지, 또는 작업할지에 대해서 논의하는 자리기도 했다. 디스코드를 통해서 가볍게 아이스브레이킹도 하면서 경직된 분위기를 살짝 업시키기도 했다. 아쉬운건 바로 다음 발대식이 예약되어 있어서 회의를 채 끝마치지 못한체 자리를 비워주어야 했다는 점이다. 그래도 생각보다 준비해준 다과나 식사, 굿즈 등이 퀄리티도 좋고 맛도 좋았다. 생각보다 돈이 많이 들었을 것 같다는 생각이 들정도다. 오픈소스 컨트리뷰션 아카데미의 공간도 선릉역에 있는데 언제든지 예약하고 프로젝트를 위해 사용할 수 있다는..
-
(2022.06.01~06.05)서울 국제 도서전 후기log 2022. 7. 4. 17:34
서울국제도서전은 전국도서전시회로 시작했던 1954년부터 지금까지 70년 가까이 출판사, 저자, 독자가 한자리에서 만나는 우리나라의 가장 큰 책 축제다. 그렇게 오래된 축제임에도 불구하고 내가 서울국제도서전을 알고 참여하게 된 것은 이번이 처음이다. 책에 관심이 있었던 것은 꽤 되었지만 책 박람회가 있다는 것을 알지 못했고 알려고 시도조차 안했다. 그러던 중 뉴닉 뉴스레터를 구독하다가 우연히 서울 국제 도서전이 개최한다는 것을 알았고 과연 책 박람회는 어떨까하는 호기심 반 책에 대한 흥미 반해서 도서전에 참여하게 되었다. 뉴닉또한 서울국제도서전의 부스를 개최하여 이벤트를 진행하고 있었다. 퀴즈를 풀면 소정의 사은품을 증정하던데, 그냥 지나가면서 참여도 안하고 뉴닉 구독자라고도 말안하고 아 여기구나...하면..
-
컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 리뷰Review/Book 2022. 6. 27. 00:12
얼핏 책의 제목을 읽어보면 쿠버네티스와 도커에 대한 설명으로 가득할 것 같지만, 컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커는 비단 쿠버네티스와 도커에 대한 설명으로 그치지 않고 컨테이너 인프라의 전반적인 환경에 대해 방점을 찍혀있는 책이다. 젠킨스와 프로메테우스 그라파나 등 컨테이너 기반의 환경에서 모니터링과 CI/CD 등 배포까지를 책에서는 담고있다. 폭넓게 인프라 전반적인 환경들을 다룰 수 있다는 점에서는 이 책이 유용하다고 느낄 수 있으나 도커와 쿠버네티스의 핵심만 공부하고 싶은 사람들에게는 사실 그다지 쓸모없는 내용처럼 느껴질 수도 있다. 사실 젠킨스나 프로메테우스와 같은 경우에는 툴처럼 사용하는 경향이 더 커서 핵심적인 내용만 알고 실무에 적용하기를 원하는 니즈가 더 강하게 느껴졌기 때문..
-
ELT 툴 Airbyte 개요 및 M1 mac local환경 세팅Programming 2022. 4. 13. 15:13
Airbyte? 데이터 통합을 쉽고 확장가능성 있게 만들어주는 EL(T) Tool CDC기능을 사용 준실시간성으로 데이터를 가져올 수 있다 비교적 설치가 간편하다 지원하는 데이터 connector들이 많다 DB이외에 페이스북, 인스타그램 등 다양한 SNS과도 연동 가능하며 140개 이상의 커넥터를 지원 T(Transform)부분의 지원이 빈약하다 아직 Hive나 Glue 저장을 지원하지는 않는다 쿠버네티스, 에어플로우, dbt 등과 통합하여 사용할 수 있다. ex) airflow + airbyte + dbt on kubernates Architecture Airbyte는 플랫폼과 커넥터 이렇게 두가지 컨셉으로 나뉜다. 플랫폼은 모든 수평적 서비스들에서 요구하는 설정과 데이터의 움직임을 운영하는(UI, c..
-
데이터 엔지니어의 바이블 빅데이터를 지탱하는 기술Review/Book 2022. 3. 11. 01:00
이 책을 접하게 된 계기 단톡방에서 추천 덕분이었다. 나는 한국 데이터 엔지니어 모임이라는 오픈 채팅방에 속해있는데 과장을 조금 보태서자면그냥 읽기만해도 실력이 쭉쭉 늘어나는 것같이 나에게 좋은 자양분이 되어주는 그런 단톡방이다. 그곳에서 다른 분이 데이터 엔지니어 공부 관련해서 추천하는 도서가 있느냐는 거의 고정적으로 올라오는 질문이 있다. 이 질문에 항상 꼽히는 답변으로 달리는 도서가 바로 이 빅데이터를 지탱하는 기술이라는 책. 책 자체는 2018년에 출간해서 그리 최신의 책은 아니라고 할 수 있다. 그럼에도 불구하고 지금까지 계속해서 회자되며 사람들이 추천하는 이유는 무엇일까. 데이터 엔지니어링의 A to Z를 담았다 가장 눈에 띄는 것은 목차에서 얼핏 느꼈다시피 데이터 분석에서 데이터 파이프라인,..
-
고졸 개발자가 1년만에 당토직야로 이직한 건에 대하여log 2022. 1. 24. 23:25
⛔주의! 제목에 어그로성이 짙지만 사실만을 다루는 회고성 기록물입니다. ⛔주의2! 제목과 달리 이직에 대해 주요하게 다루는 이직기가 아닌 앞서 말했듯이 회고록이므로 이직이나 이직한 회사에 대한 내용은 차후의 포스팅을 참고하시기 바랍니다. ⛔주의3! 스크롤의 압박이 있는 아주 긴 글입니다. 크게 심호흡을 하신 뒤에 스크롤을 내리시기 바랍니다. 2021년을 맞이하며 코로나로부터 2020년 살아남기 회고록을 이후로 벌써 1년이 지났다. 해당 글이 1월 3일에 기록된 것에 비해 약 20여일가량이 지난 지금 회고록이라는 이름이 무색해질만큼 벌써부터 작년의 기억이 까마득해버릴 정도다. 코로나로부터 2020년 살아남기 이글은 회고록의 목적성을 담고 있다. 올해에 겪은 일들과 과정 등을 풀어서 적고, 어떤 것들이 부족..
-
분산 쿼리 엔진 prestoSQL의 바뀐 이름 TrinoReview 2022. 1. 4. 00:31
Trino? 처음듣는데? 페이스북 내부 직원 약 1,000명은 Presto를 매일 페타바이트가 넘는 데이터를 스캔하는 30,000건이 넘는 쿼리를 페이스북 데이터를 조회하는데 사용하고 있다. presto는 페이스북이 최초 개발하여 오픈 소스로 공개한 대화식 데이터 쿼리 서비스. 이를 이용해 다양한 데이터베이스에 대한 일관된 ANSI SQL 질의가 가능하다. 빠른 속도를 보장하기 위해 엔진 레벨에서 분산 컴퓨팅 기법이 사용된다. 2020년 12월 27일 Presto 초기 멤버들이 페이스북을 나와 만든 PrestoSQL 프로젝트가 Trino로 리브랜딩 됨 350버전 이후로 prestoSQL에서 Trino로 완전히 이름이 바뀜 Amazon은 presto 0.172 기반으로 시작해 자체 개발한 Amazon At..
-
airflow의 새로운 경쟁자 오케스트레이션 플랫폼 dagsterProgramming/python 2021. 12. 23. 23:42
Open Source Data Stack Conference 아래 내용은 위 동영상의 내용을 번안하고 정리한 내용입니다. 위 사진의 기술들은 다양한 방식들로 서로 의존성이 존재한다. 예를들어 스노우플로우나 다른 데이터 웨어하우스에서 데이터가 만들어지기 전까지 dbt를 실행할 수 없다. 그리고 dbt가 그것의 모델을 업데이트하기 전까지 Grouparoo같은 리버스 ETL은 새로운 정보를 적재할 수 없다. 이런 의존성들간에 Ordering과 Excute를 조율하는 것이 오케스트레이션의 목적이다. 왜 dagster여야 하는가? 전통적인 오케스트레이션은 스케줄링과 실행을 통합하는 시스템과 가시적이고 알림을 운영할 수 있어야 한다. 여기에 더해져서 덱스터는 유용한 metadata를 생성하는 과정에서 데이터가 어디..