빅데이터를 빠르고 정확히 분석하기 위해서는 다양한 빅데이터 분석 도구가 필요하다. 빅데이터 분석 도구는 복잡한 대용량 데이터를 구조화해서 분석한다. 데이터의 카테고리를 분리하고 필요한 데이터를 찾아 연결하면서 데이터 속에 숨어있는 인사이트를 찾아낸다. 하지만, 빅데이터 분석 도구도 모든 요소를 자동으로 찾아내지는 못한다. 빅데이터를 효율적으로 분석하기 위해서는 데이터의 특성에 맞는 분석 도구와 프로세스가 필요하고, 최초로 제어해야 하는 데이터 구성이 있다. 이번 회에서는 빅데이터 기반 프로젝트에서 필요한 분석과 개발 기술을 알아보기로 한다.
빅데이터 기반 프로젝트를 수행하기 위해서는 기본적으로 프로그래밍 기술, 통계, 그리고 데이터 분석에 대한 전문적 지식을 가지고 있어야 한다. 또한, 데이터에 대한 새로운 가설을 만들거나 검증할 수 있어야 한다. 이를 위해서는 스토리텔링과 패턴 및 알고리즘, 시각화 기술도 필요하다. 비즈니스에 대한 전문적 지식도 당연히 필요하다. 빅데이터 분석을 위한 개발 실무로 가장 많이 사용되는 것이 R이다. R을 사용한 빅데이터 관련 예제를 살펴보도록 한다.
R을 이용한 텍스트 감정분석 (출처: 퀸트랩)
사람들은 생각과 감정을 말로 표현한다. 상품평이나 인터넷 댓글, SNS 등에 남기는 텍스트를 모아서 분석하면 평소에는 알지 못하는 다양한 정보를 얻을 수 있다. 이 것이 텍스트 분석의 목적이다. 이렇게 분석된 결과를 바탕으로 감정을 수치화하여 감정의 정도를 예측할 수 있다. 감정의 좋고 나쁨, 흥분과 지루함과 같은 감정 요소 별로 정도를 파악할 수 있고 그 이유를 분석하여 개선 방안을 수립할 수 있다. 감정분석의 자료가 모이게 되면 통계화 하고 미래를 예측할 수 있는 통계 모형을 만든다.
(1) 텍스트에서 감정 구분
아래 예제는 영화 어벤져스를 개봉하면서 수집된 관람객들의 입력 데이터들이다(그림1). 감정과 관련된 구분자를 정의하고 수집된 데이터들을 확인하여 구분자 별로 입력값들을 분리한다. 그림1에서는 구분자를 비호감단어와 호감단어로 정의하였고, 구분자 별로 단어를 분리하였다. 영화를 감상한 사람이 입력한 값이 빨간색으로 표시된 ‘실망’, ‘산만’, ‘지루’, ‘별로’라는 단어로 구분된다면 비호감이었고, 반대로 ‘기대’, ‘재미’, ‘볼만’이라는 단어로 구분된다면 호감이었다고 해석한다. 나머지 구분 단어는 보통으로 해석한다.
<그림1> 영화 어벤져스의 감정 구분 예
댓글 없음 :
댓글 쓰기