2016년 7월 5일 화요일

하둡 기반의 빅데이터 활용을 통한 시스템과 작업 시간 효율화

각 분야에서 나날이 증가하고 있는 데이터 양은 폭증이라는 말이 더 정확한 표현이다. 빅데이터 분석에 많은 비용과 시간을 투자하고 있지만 빅데이터를 활용하기 전에 어떻게 저장하고 처리하는지에 대한 연구도 병행되고 있다. 이미 빅데이터의 처리에 대한 많은 방법과 솔루션들이 제시되고 있지만 언제 시스템을 살펴봐야 하는지, 아키텍처는 제대로 정의했는지, 작업시간은 적당한 것인지가 언제나 고민거리다. 이번 회에서는 기존 오라클 시스템에서 하둡 기반의 분산처리 시스템으로 변경하는데 소프트웨어공학적 요소를 적용한 사례를 살펴보기로 한다. 컨설팅에 참여했던 단국대학교 SERC(Software Engineering Research Center)의 윤광렬 박사를 만나 자세한 사항을 들어본다.

Q: 이번 프로젝트가 시작된 배경에 대해서 말씀해 주세요.
A회사는 RDBMS인 오라클을 활용해서 데이터를 처리하고 있었습니다. 주요 고객사가 증권사이고 여러 채널을 통해 대고객 서비스를 제공하는데 기술의 발전에 따라 채널이 계속 증가하다 보니 증권사 시스템과 고객 간의 데이터의 양도 기하급수적으로 증가하고 있는 상황이었습니다. RDBMS로는 감당 못한다는 판단을 할 수 밖에 없었죠. 이런 이유로, 매우 빠르고 안정적으로 데이터를 처리하는 새로운 아키텍처를 필요로 하였고 이후에 다시 이런 고민이 없었으면 하는 바램이 강했습니다. 빅데이터는 RDBMS로 감당을 못하기 때문에 새로운 처리 방식을 위해 하둡 기반을 SERC 의 데이터베이스 기술팀이 제안하였고, 아키텍처의 강건성을 위한 컨설팅을 위해 컨설팅 업체 B와 SERC의 소프트웨어공학팀이 함께 고민했습니다.

Q: 빅데이터 처리 방식을 최신 트렌드에 맞추고 안정성과 확장성을 고려하여 시스템 아키텍처를 설계한 것으 로 보입니다. 진행했던 사항에 대해 간략히 설명해 주시죠.
두 가지로 나누어 말씀 드려야 할 것 같습니다. 첫 번째는 빅데이터 처리를 오라클 기반에서 하둡 기반으로 변환한 것입니다(그림1). 증권 거래를 위한 프로그램인 HTS(Home Trading System)에서 발생하는 log data(일종의 비정형 빅데이터)를 기존에는 오라클에서 처리하였습니다. 처리 후 성능에 대해서는 A업체도 크게 불만이 없었는데 처리 중 성능에 매우 불만이 많았습니다. 데이터 양이 늘어날 때마다 많게는 수 십분을 기다린 적도 많다고 하더군요.


댓글 없음 :

댓글 쓰기