ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파이썬으로 배우는 웹 크롤러
    Review/Book 2019. 9. 22. 17:49

     

    사실 요즘 자바스크립트 node.js를 공부하는 통에 다음 진도를 못나가고있다...다음은 확실히 정해둔 것이 있다. 바로 파이썬이다.

    사실 천천히 단계적으로 HTML/CSS -> JAVASCRIPT -> NODE.JS -> PYTHON 순으로 익혀가려다가 혹시나 되려나식으로 신청했던 책 감평 이벤트에 신청하다가 덜컥 붙어버렸다.

    그래서 순서가 뒤죽박죽이 되긴했지만 그래도 관심이 있던 터였고 특히 파이썬이라는 언어가 다른 기초지식이 없어도 프로그래밍에 관련된 알고리즘이나 다른 언어들을 몇가지 알고있으면 금방 따라가기 수월하다는 장점이 있어서 책 읽는 것에 있어서는 무리가 없었다.

     

    나에게 파이썬을 배우려는 이유는 크게 두가지가 있다. 하나는 쉽게 배울 수 있고 편하게 적용할 수 있어서 그 접근성에 있어서 큰 장점이 있고 그 접근성을 기반으로 웹에서도 파싱하는 것에 쉽게 적용할 수 있다는 것이 두번째 매력이다.

    프론트앤드나 백앤드에 구애되지 않고 범용적으로 적용할 수 있는 언어이면서 내가 원하는 웹쪽에 편하게 적용할 수 있다는 것은 웹에서 적용한 것을 추가적으로 확장시킬 수 있는 것을 시사한다.

    파이썬을 이용한 웹 크롤러는 크롤링분야(자바스크립트나 node.js 등 다른 언어들을 이용하는 것보다도)에서는 선두적일 수 밖에 없는 이유이기도 하다.

    그 목적성까지 맞았기에 파이썬에 관련된 책들을 찾았었고, 특히 내가 원하는 분야인 웹 크롤러에 특화되어 있는 책이기 때문에 신청하지 않을 수가 없었다.

     

    웹 크롤링을 간단히 설명하자면 네이버나 구글 또한 웹 크롤러라고 할 수 있다. 인터넷에 퍼져있는 사이트 자료들을 파싱해서 검색어로 정리하고 클라이언트에 뿌려주는 것이다.

    크롤링을 한다는 것은 특정하거나 비특정한 것들을 중에서 내가 원하는 것들을 모아서 화면에 보여주는 작업까지를 모두 아우르는 말일 것이다.

    어떻게보면 검색엔진부터 시작해서 나에게 필요한 것들을 파싱하는 피드구성, 머신 러닝까지 두루 도합하는 종합적인 내용일 수 있다.

    이 책은 그런 점에서 크롤러를 종합하는 종합서에 가깝다고 본다. 심지어 파이썬의 초보자, 입문자들도 무리없이 읽을 정도이니(파이썬이 배우기 쉽다는 것을 감안한다면)그럼에도 불구하고 책의 두개는 그리 두꺼운 편은 아니다.

    사실 예제도 그렇고 그렇게 소스가 엄청나게 많다던가 내용의 깊이가 깊은 편은 아니다. 파이썬, 크롤링, 머신 러닝 등 개괄적으로 펼쳐두고 응용이나 나머지는 추후 관심에 따라서 검색을 이용하거나 다른 책을 통해서 보충해나갈 수 있다.

    그런 점에서 나같은 입문자들은 크롤링에 대해서 아직 관심만 있고 파이썬도 아무 것도 모른다. 그래서 어떤 것인지 파악이 필요한 경우에는 이 책이 도움이 될 수 있으나 크롤링에 대해서 전문적으로 파고들어 마스터하고 싶다면 이 책은 피하는 것이 좋다.

     

    저자도 블로그에 항시 질문을 받고 여러 조언도 받을 수 있으며 책 교열된 내용은 수시로 업데이트 되고 있으니 좀더 깊이 공부하고 싶거나 조언이 필요한 독자들은 블로그를 참고하는 것이 추가적으로 책에 대해 덫붙힌 덤이라 할 수 있다.

     

     

    댓글

Copyright 2023. 은유 All rights reserved.