이 책을 접하게 된 계기
단톡방에서 추천 덕분이었다. 나는 한국 데이터 엔지니어 모임이라는 오픈 채팅방에 속해있는데 과장을 조금 보태서자면그냥 읽기만해도 실력이 쭉쭉 늘어나는 것같이 나에게 좋은 자양분이 되어주는 그런 단톡방이다.
그곳에서 다른 분이 데이터 엔지니어 공부 관련해서 추천하는 도서가 있느냐는 거의 고정적으로 올라오는 질문이 있다. 이 질문에 항상 꼽히는 답변으로 달리는 도서가 바로 이 빅데이터를 지탱하는 기술이라는 책.
책 자체는 2018년에 출간해서 그리 최신의 책은 아니라고 할 수 있다. 그럼에도 불구하고 지금까지 계속해서 회자되며 사람들이 추천하는 이유는 무엇일까.
데이터 엔지니어링의 A to Z를 담았다
가장 눈에 띄는 것은 목차에서 얼핏 느꼈다시피 데이터 분석에서 데이터 파이프라인, 분산 처리 및 수집까지 데이터 엔지니어링의 포괄적인 부분을 모두 넣은 구성이 돋보였다.
데이터 엔지니어링은 다른 직군에 비해서 정립된지 얼마 안되었기도 하고 기존에 백엔드 개발자들이 하던 것들을 더 전문화되고 분업화되어서 등장하게 되었다.
그렇기 때문에 걸쳐놓은 분야가 정말 많다. 백엔드에 필요한 지식, 데브옵스, 데이터 분석, 데이터 사이언티스트 등 다양한 직군에 걸쳐 다양하게 알고 있어야하는 것이 바로 데이터 엔지니어링이라는 직군이다.
자조적인 표현으로 데이터 잡부라는 말이 단톡방 사이에서 있을 정도로 회사마다 데이터 엔지니어가 하는 일은 천차만별이다. 그런 직업의 특수성 때문에 보통 데이터 엔지니어링을 공부한다면 하나의 프레임워크나 기술을 가지고 공부하게 되는데(spark, airflow 등)
이 책은 그 수 많은 범위를 폭넓게 망라하고, 특히 데이터라는 도메인에 대해서 그 발전된 역사를 함께 서술하고 있어서 전반적인 지식을 얻을 수 있다.
예를 들어 하둡이나 하이브의 등장 배경이나 MPP, 분산 처리의 등장과도 같은 데이터 기반 인프라들이 어떤 필요에 의해서 등장하고 발전하게 되었는지를 알 수 있는 것이 가장 큰 장점이다.
추천하는 독자 층
- 데이터 엔지니어어로 커리어 전환을 하고 싶은 사람
- 데이터 엔지니어에 입문하고 싶은 사람
- 데이터 분야의 전반적인 인프라나 기술에 대해서 알고싶은 사람
내가 처음 백엔드에서 데이터 엔지니어로 커리어를 전환했을 때 처음 읽었던 책이 바로 ‘엔터프라이즈 데이터 플랫폼 구축'이라는 책이었다. 지금 다시 읽어보면 이해가 어느 정도 되지만 그때 당시 그 책을 처음 읽었을 때는 이해가지 않는 것들의 투성이었다.
아마 그때 그 책 대신에 이 빅데이터를 지탱하는 기술을 책을 읽었다면 개괄적으로 폭 넓은 시야를 가지고 커리어를 밟아나갈 수 있었을텐데하는 아쉬움이 든다
다만 역시 폭 넓은 내용을 담으려다 보니 깊이가 조금 떨어지거나 시대에 뒤쳐지는 내용들이 조금씩 남아있다는 것은 감안해야한다.
이 책을 읽을 때는 기초를 다진다는 느낌으로 키워드만 중점적으로 캐치해서 읽는 것을 추천한다.