구글의 독감 트렌드 서비스는 전 세계의 독감 관련 증세, 치료 등 독감과 관련된 입력 빈도를 파악하여 독감 유행 수준을 5개 등급으로 구분해 2008년부터 제공하고 있다. 특정 지역에서 발열이나 기침과 같은 독감 용어 검색이 늘어나면, 해당 지역을 지도에 추가해 해당 지역의 독감 유행 수준을 실시간으로 표시하고 있다(그림10).
<그림10> Google flu Trends
해당 서비스는 구글을 통해 검색되는 데이터들을 연관규칙학습과 유형학습 기법을 통해 전 세계 독감 발병률을 예측했고, 당시에는 다소 오차가 있어 “빅데이터의 오류”에 대한 의견이 많이 나타나기도 하였다. 하지만, 2008년 당시에는 기준이 될 수 있는 초기 데이터 집합이 존재하지 않아 모델에 대한 평가가 원할 하지 않았기 때문에 오차 줄이는데 어려움이 있었을 것으로 보인다. 현재는 모델 완성 후 많은 시간이 흐른 후이기 때문에 모델에 대한 평가가 더 체계적으로 이루어 지고 있다.
이 사례가 나타내는 중요한 점은, 아무리 좋은 모델이라고 하더라도 검증되거나 평가 받지 못한 모델은 결과의 신뢰성을 장담하지 못한다는 것이다. 다시 말해, 초기 구축된 모델은 분석 결과를 반복적으로 검증 받아야 하고, 검증 후에는 다시 모델의 보정 값으로 활용되는 것이 좋다. 이 것은 기계학습 기법으로, 최근 빅데이터 분석에서 기계학습이 많이 선호되는 이유이기도 하다.