2016년 8월 22일 월요일

데이터 분석 사례 - Google flu Trends

구글의 독감 트렌드 서비스는 전 세계의 독감 관련 증세, 치료 등 독감과 관련된 입력 빈도를 파악하여 독감 유행 수준을 5개 등급으로 구분해 2008년부터 제공하고 있다. 특정 지역에서 발열이나 기침과 같은 독감 용어 검색이 늘어나면, 해당 지역을 지도에 추가해 해당 지역의 독감 유행 수준을 실시간으로 표시하고 있다(그림10).

<그림10> Google flu Trends


해당 서비스는 구글을 통해 검색되는 데이터들을 연관규칙학습과 유형학습 기법을 통해 전 세계 독감 발병률을 예측했고, 당시에는 다소 오차가 있어 “빅데이터의 오류”에 대한 의견이 많이 나타나기도 하였다. 하지만, 2008년 당시에는 기준이 될 수 있는 초기 데이터 집합이 존재하지 않아 모델에 대한 평가가 원할 하지 않았기 때문에 오차 줄이는데 어려움이 있었을 것으로 보인다. 현재는 모델 완성 후 많은 시간이 흐른 후이기 때문에 모델에 대한 평가가 더 체계적으로 이루어 지고 있다.
이 사례가 나타내는 중요한 점은, 아무리 좋은 모델이라고 하더라도 검증되거나 평가 받지 못한 모델은 결과의 신뢰성을 장담하지 못한다는 것이다. 다시 말해, 초기 구축된 모델은 분석 결과를 반복적으로 검증 받아야 하고, 검증 후에는 다시 모델의 보정 값으로 활용되는 것이 좋다. 이 것은 기계학습 기법으로, 최근 빅데이터 분석에서 기계학습이 많이 선호되는 이유이기도 하다.





데이터 분석 기법 - 유형분석

특성을 구분하여 통계적 분류를 하는 기법이다. 통계적 분류는 새로운 사건이 속하게 될 범주를 만든다. 이를 위해, 기초 데이터를 바탕으로 만들어진 테이블이 있어야 한다. 이 기법은 문서를 분류하거나 조직을 나눌 때 사용할 수 있다(그림5).

<그림5> 유형분석


출처: 정보통신산업진흥원






빅데이터 분석 기법



데이터 분석을 위해서 수집한 데이터를 가장 잘 아는 전문가의 경험에 의해 다양하게 분석될 수 있지만, 기본적으로 표2에 나타난 7가지의 기본 방법으로 분석할 수 있다.



<표2> 빅데이터 분석 기법


더보기