티스토리 뷰

반응형

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

현재 일하는 분야가 데이터 관련 분야이고, 매일 얼굴을 마주하는 같은 셀 구성원들 중 상당수가 빅데이터 관련된 업무를 하고 있음에도 그 분들이 하는 업무 대화를 알아듣지 못해 답답함이 있었다.

데이터를 적재해 머신러닝이나 딥러닝을 하고있지는 않지만 관련 지식을 습득하면 나쁠 것이 없을 것 같아 선택한 책이었는데, 결과적으로 이 책은 실용서이기 때문에 개념이 부족한 나에게 적합한 내용은 아니었다.

그럼에도 이 책을 선택한 것을 후회하지 않았는데 그 이유는 관련 기초 지식도 함께 알려주기 때문이었다!

총 23개 장 중 아래 4개 장은 배경 설명과 이론 전달 관련 내용이라 큰 도움이 되었다.

1장, 인공지능 소개

2장, 인공지능 사용 사례

3장, 머신러닝 파이프라인

23장, 인공지능과 빅데이터

 

특히 23장 인공지능과 빅데이터를 읽으니 빅데이터 관련 업무 담당하는 분들 대화에 주로 등장하는 시스템 이름이 많이 보여 앞으로 이 부분을 몇번 더 정독해 봐야 할 것 같다.

이 장에서 인상깊었던 부분은 빅데이터에 대한 비유를 소개한 부분이었다.

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.
빅데이터는 십대들이 성을 바라보는 관점과 같다. 모두가 성에 관해 이야기하지만 사실은 어떻게 하는지는 알지 못한다. 다른 사람들이 모두 하고 있다고 생각하기 때문에 자신도 하고 있다고 주장한다.

이 문장을 읽으며 어 나도 그런데..! 하는 생각이 들어 일단 반성좀 해야겠다. 일단 빅데이터의 3가지 V부터 알아보자.

  1. Velocity (속도)
  2. Volume (규모)
  3. Variety (다양성)

빅데이터를 그래서 어디다 쌓지? 라고 할때 가장 먼저 생각나는건 HDFS, 하둡 분산 처리 시스템이다. 하둡 하둡 이름은 많이 들었지만 개념이 늘 모호했다. 하둡은 대규모 데이터 세트를 처리, 변환, 분석하기 위해 여러 컴퓨터 시스템의 네트워킹을 용이하게 해주는 도구이다. (라고 적었지만 이 문장을 100번은 더 읽어봐야 알 것 같다.)

하둡이 네트워크 분산처리를 위한 도구라면 여기에 플러그인처럼 추가해서 기능을 확장할 수 있는 프로그램들이 더 있는데, 대표적으로 하이브, 임팔라 등이 있다. 하둡에 적재되는 데이터를 쿼리하기 위한 것으로 성능은 임팔라가 더 좋다고 한다.(참고: Hadoop에서의 실시간 SQL 질의: Impala)

또한 하둡과 유사하게 빅데이터를 처리하기 위한 시스템으로 스파크도 있는데, 본질적으로 데이터를 저장하는 방식이 다르다. 파일을 읽고 쓰는 방식(하둡)과 RDD(분산 데이터 세트)를 사용해 클러스터 내 여러 노드에 중복 저장해 불변성과 분산 특징을 가지고 있는 방식(스파크)이 그것이다.

스파크를 개발하기 위한 언어로 파이썬이 추가되어 더 각광을 받고 있는 듯 하다.

반응형
댓글