Book Review

[2016/05/13] 헬로 데이터 과학

The uprooted 2016. 5. 13. 17:17

사내에 적은 책 추천글. (몇 가지는 삭제하고 재정리)

"김진영, 헬로 데이터 과학"

----------

 "추천하는 이유 4줄 요약"

 1) 기획자들이 많이 사용하는 엑셀로도 기초적인 데이터 정리, 분석을 할 수 있다는 것을 보여줌. (중간중간 엑셀과 함께 R을 활용하는 방법도 소개되어 있음)
 2) 글로만 보여주는 것이 아니라 Github에서 저자가 올려둔 실제 파일을 내려받아 실습을 따라가며 해 볼 수 있음
 3) 데이터가 왜 중요한지에 대해서만이 아니라, 그것을 다루는 기본적인 기법들, 통계적인 개념들도 함께 소개해주고 있어서 더 여려운 책에도 도전할 수 있도록 디딤돌 역할을 해 줄 수 있음
 4) 데이터의 수집 방법과 데이터 분석 디자인, 데이터의 시각화 방법에 대해서도 (초보자들을 염두에 두고) 자세히 설명하고 있음

아래는 책 내용 중에서 몇 가지 발췌한(+인상깊었던) 글.

“데이터 과학”

1. 문제정의
 - 데이터에 관심을 갖게 시작한 사람들이 범하는 첫번째 오류는 무작정 데이터부터 모으기 시작하는 것이다. 하지만 이런 접근으로는 어떤 데이터를 얼마나 모아야 할 지, 그리고 모은 데이터를 가지고 무엇을 해야 할지를 판단할 수 없다. 이 책에서는 문제 정의에서 시작하는, 그리고 문제 해결에 초점을 맞춘 데이터 과학의 방법론을 제시한다.

2. 스몰데이터
 - 문제 해결에 초점을 맞추다 보면 생각보다 많은 데이터가 필요하지 않다는 사실을 발견하게 된다. 따라서 필자는 ‘스몰데이터’로 시작해야 한다고 말한다. 스몰데이터가 한계를 드러내는 경우에만 빅데이터를 사용하면 된다. 이 책에서는 스몰데이터에서 출발하는 데이터 과학의 방법론을 제시한다.

3. 주변에 있는 도구
 - 데이터 처리 및 분석을 위한 도구가 대부분 개발자 위주로 되어있는 관계로, ‘개발자가 아니면 데이터 과학을 시작할 수 없다’고 생각하기 쉽다. 하지만 생활 주변의 문제를 해결하는 것이 목적이라면 대용량 데이터를 다루거나 고급 프로그래밍을 알아야 하는 것은 아니다. 엑셀 등의 스프레드시트만 활용해도 웬만한 분석은 모두 가능하다. 이 책에서는 데이터 과학의 주된 방법을 엑셀로 따라할 수 있는 예제를 제공하며, 좀 더 고급 도구라고 할 수 있는 R에 대한 기본적인 사용법도 설명한다.

4. 간단한 분석 기법
 - 데이터 과학에 대한 또 다른 오해는 복잡한 수학 및 통계 기법을 알아야 한다는 것이다. 하지만 문제 현상에 대한 데이터를 수집해서 살펴보는 노력만으로도 많은 것을 배울 수 있으며, 대부분의 문제는 신뢰구간의 계산과 같은 간단한 통계 기법으로 해결할 수 있다. 이 책에서는 데이터 수집의 방법과 함께 꼭 알아야 할 기본적인 통계 및 기계학습 기법을 소개한다.
“실력있는 데이터 분석가가 되기 위해서는 먼저 현명한 데이터 소비자가 되어야 한다.”
“데이터에 기반한 문제 해결은 대부분 표본추출 및 측정 과정에서 기인하는 불확실성을 동반하며, 따라서 일단 내려진 결론이라도 항상 오류 가능성을 내포하고 있다. 데이터에서 얻은 결혼을 실천하는 개인이나 조직은 항상 이를 염두에 두고 실천 과정에서 결론을 검정하는 습관을 가져야 한다.”
“데이터는 본질적으로 현상의 불완전한 반영이다.”
“탐색적 데이터 분석(Exploratory Data Analysis, EDA)이 필요한 이유”

 1. 우선 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.
 2. 이를 통해 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는 등의 결정을 내릴 수 있다.
 3. 또한 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
 4. 데이터에 대한 이러한 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용된다.
 “탐색적 데이터 분석의 장점은, 어떤 특정한 결론을 도출하기 위함이 아니라, 데이터에서 최대한 다양한 이야기(스토리)를 뽑아내려 한다는 것이다.”
“기계학습”

 - 기계학습은 학습 목표가 되는 예측 결과가 존재하는 경우(지도학습)와 그렇지 않은 경우(자율학습)로 구분된다.
 - 지도학습은 학습데이터에 예측 목표가 되는 속성이 포함된 경우로, 분류 및 회귀분석 기법이 해당된다.
 - 자율학습은 정답이 없이 데이터에서 현저하게 나타나는 패턴을 찾아 내는 방법으로 군집화(클러스터링) 기법이 이에 해당한다.

끝으로, 저자가 무료로 공개하고 있는 R과 관련된 책의 웹 링크.

“R을 이용한 데이터 처리 & 분석 실무” 
 - pdf : https://drive.google.com/file/d/0B_ss3O1d3bGxeXhuRXdjRWpiSzg/view
 - html (web) : https://thebook.io/006723/