전체 글
-
ELT 툴 Airbyte 개요 및 M1 mac local환경 세팅Programming 2022. 4. 13. 15:13
Airbyte? 데이터 통합을 쉽고 확장가능성 있게 만들어주는 EL(T) Tool CDC기능을 사용 준실시간성으로 데이터를 가져올 수 있다 비교적 설치가 간편하다 지원하는 데이터 connector들이 많다 DB이외에 페이스북, 인스타그램 등 다양한 SNS과도 연동 가능하며 140개 이상의 커넥터를 지원 T(Transform)부분의 지원이 빈약하다 아직 Hive나 Glue 저장을 지원하지는 않는다 쿠버네티스, 에어플로우, dbt 등과 통합하여 사용할 수 있다. ex) airflow + airbyte + dbt on kubernates Architecture Airbyte는 플랫폼과 커넥터 이렇게 두가지 컨셉으로 나뉜다. 플랫폼은 모든 수평적 서비스들에서 요구하는 설정과 데이터의 움직임을 운영하는(UI, c..
-
데이터 엔지니어의 바이블 빅데이터를 지탱하는 기술Review/Book 2022. 3. 11. 01:00
이 책을 접하게 된 계기 단톡방에서 추천 덕분이었다. 나는 한국 데이터 엔지니어 모임이라는 오픈 채팅방에 속해있는데 과장을 조금 보태서자면그냥 읽기만해도 실력이 쭉쭉 늘어나는 것같이 나에게 좋은 자양분이 되어주는 그런 단톡방이다. 그곳에서 다른 분이 데이터 엔지니어 공부 관련해서 추천하는 도서가 있느냐는 거의 고정적으로 올라오는 질문이 있다. 이 질문에 항상 꼽히는 답변으로 달리는 도서가 바로 이 빅데이터를 지탱하는 기술이라는 책. 책 자체는 2018년에 출간해서 그리 최신의 책은 아니라고 할 수 있다. 그럼에도 불구하고 지금까지 계속해서 회자되며 사람들이 추천하는 이유는 무엇일까. 데이터 엔지니어링의 A to Z를 담았다 가장 눈에 띄는 것은 목차에서 얼핏 느꼈다시피 데이터 분석에서 데이터 파이프라인,..
-
고졸 개발자가 1년만에 당토직야로 이직한 건에 대하여log 2022. 1. 24. 23:25
⛔주의! 제목에 어그로성이 짙지만 사실만을 다루는 회고성 기록물입니다. ⛔주의2! 제목과 달리 이직에 대해 주요하게 다루는 이직기가 아닌 앞서 말했듯이 회고록이므로 이직이나 이직한 회사에 대한 내용은 차후의 포스팅을 참고하시기 바랍니다. ⛔주의3! 스크롤의 압박이 있는 아주 긴 글입니다. 크게 심호흡을 하신 뒤에 스크롤을 내리시기 바랍니다. 2021년을 맞이하며 코로나로부터 2020년 살아남기 회고록을 이후로 벌써 1년이 지났다. 해당 글이 1월 3일에 기록된 것에 비해 약 20여일가량이 지난 지금 회고록이라는 이름이 무색해질만큼 벌써부터 작년의 기억이 까마득해버릴 정도다. 코로나로부터 2020년 살아남기 이글은 회고록의 목적성을 담고 있다. 올해에 겪은 일들과 과정 등을 풀어서 적고, 어떤 것들이 부족..
-
분산 쿼리 엔진 prestoSQL의 바뀐 이름 TrinoReview 2022. 1. 4. 00:31
Trino? 처음듣는데? 페이스북 내부 직원 약 1,000명은 Presto를 매일 페타바이트가 넘는 데이터를 스캔하는 30,000건이 넘는 쿼리를 페이스북 데이터를 조회하는데 사용하고 있다. presto는 페이스북이 최초 개발하여 오픈 소스로 공개한 대화식 데이터 쿼리 서비스. 이를 이용해 다양한 데이터베이스에 대한 일관된 ANSI SQL 질의가 가능하다. 빠른 속도를 보장하기 위해 엔진 레벨에서 분산 컴퓨팅 기법이 사용된다. 2020년 12월 27일 Presto 초기 멤버들이 페이스북을 나와 만든 PrestoSQL 프로젝트가 Trino로 리브랜딩 됨 350버전 이후로 prestoSQL에서 Trino로 완전히 이름이 바뀜 Amazon은 presto 0.172 기반으로 시작해 자체 개발한 Amazon At..
-
airflow의 새로운 경쟁자 오케스트레이션 플랫폼 dagsterProgramming/python 2021. 12. 23. 23:42
Open Source Data Stack Conference 아래 내용은 위 동영상의 내용을 번안하고 정리한 내용입니다. 위 사진의 기술들은 다양한 방식들로 서로 의존성이 존재한다. 예를들어 스노우플로우나 다른 데이터 웨어하우스에서 데이터가 만들어지기 전까지 dbt를 실행할 수 없다. 그리고 dbt가 그것의 모델을 업데이트하기 전까지 Grouparoo같은 리버스 ETL은 새로운 정보를 적재할 수 없다. 이런 의존성들간에 Ordering과 Excute를 조율하는 것이 오케스트레이션의 목적이다. 왜 dagster여야 하는가? 전통적인 오케스트레이션은 스케줄링과 실행을 통합하는 시스템과 가시적이고 알림을 운영할 수 있어야 한다. 여기에 더해져서 덱스터는 유용한 metadata를 생성하는 과정에서 데이터가 어디..
-
[에러로그]parquet파일 변환 fastparquet v.s pyarrowProgramming/python 2021. 11. 19. 16:06
에러 내용 parquet로 변환한 파일을 read해서 확인했을 때 일부 컬럼의 로우 값이 제대로 인코딩되지 않은 문제가 있다. 다른 컬럼의 값들은 정상적으로 표출되었지만 특정 컬럼에서만 이상이 생기는 것을 확인했다. to_parquet 메소드 pandas 라이브러리에서 to_parquet 메소드를 사용해서 데이터프레임을 parquet 포맷으로 변경할 때, 사용할 수 있는 엔진의 옵션은 두 가지가 있다. pyarrow와 fastparquet이 바로 그것인데, pandas 내부적으로 이 두 라이브러리들을 가져와서 parquet파일로 변환하게 된다. 라이브러리를 선택하는 방법은 engine 파라미터에 해당하는 라이브러리명을 적어주면 된다. df.to_parquet("test.parquet", engine="p..
-
재택근무를 희망하는 히치하이커를 위한 안내서Review 2021. 10. 17. 20:18
달콤했던 재택근무를 떠나보내며 어느새 코로나 일별 확진자 수가 3천명을 넘겼다는 소식이 뉴스를 통해 들리고, 몇 주째 2천여명 밑으로 떨어질 기미가 보이지 않는다. 예전에 1,000명을 넘겨도 직장 동료들과 친구들끼리 서로 걱정하며 안부를 전하던 것이 무색할 만큼 후반부 드래곤볼의 전투력 인플레이션마냥 이제는 2000명 정도는 “크큭, 고작 그 정도 수치인가?”속으로 코웃음치며 무뎌져 간다. 물론 그렇다고 이러한 상황에 대비하지 않는 것은 아니다. 백신 1차 접종도 받고, 어지간하면 집 안에서 해결하고 약속도 거리 두기 단계에 맞춰서 많은 인원 수가 모이는 모임같은 경우는 지양했다. 집돌이인 성향도 한 몫하긴 했지만 지금까지 간헐적으로 회사에서 재택을 하기는 했지만 이런 외부 상황과 나의 개인적인 사유를..
-
dockerfile 한국어 로케일 설정(feat. 우분투와 데비안의 차이)Programming 2021. 8. 10. 15:43
어플리케이션 내부나 쉘에서 한글이 등장할 때가 있는데 그때마다 오류가 생겨서 아예 언어셋을 UTF-8 인코딩된 한글 언어셋으로 설정했다. 해당 언어셋을 설치하기 위해서 아래와 같은 명령어를 dockerfile에 명시했다. RUN apt-get update && apt-get install -y locales git # Locale RUN localedef -f UTF-8 -i ko_KR ko_KR.UTF-8 ENV LC_ALL ko_KR.UTF-8 ENV PYTHONIOENCODING=utf-8 빌드 한 뒤에 docker run -it imagename /bin/bash 로 도커 내부의 쉘로 접속했더니 다음과 같은 경고가 떴다. bash: warning: setlocale: LC_ALL: cannot c..