2016년 8월 9일 화요일

처리 방식에 따른 빅데이터 아키텍처의 두 가지 사례



빅데이터를 위해 배치 처리를 하는 하둡(Hadoop) 아키텍처 기반의 시스템과 실시간 처리를 하는 CEP(Complex Event Processing) 아키텍처가 존재한다. 데이터를 실시간 처리해야 하는 경우라면 CEP 아키텍처를, 그렇지 않은 경우는 하둡 아키텍처를 사용하면 되는데 워낙 많은 데이터를 처리해야 하는 빅데이터이기 때문에 하둡 아키텍처가 많이 사용된다.


(1) 하둡 아키텍처 기반의 배치(Batch)처리

배치 처리을 위한 하둡 아키텍처는 다양한 형태로 구성되는데 많이 사용되는 구성은 그림6과 같고, 각 레이어 별 대표적인 구성 요소는 표3과 같다.

<표3> 하둡 아키텍처의 구성 요소
구성 요소
내용
Log Collector
  - 로그 이벤트 수집기 레이어로 많이 사용
  - 예) Apache Flume
DB Collector
  - DB에 저장된 데이터를 수집
  - 예) Apache Sqoop
Message Queue
  - 로그,이벤트 내용을 Data Store에 넣기 전에 임시로 저장할 경우 사용
  - 예) Apache Kafka
Data Store
  - 분산 파일 시스템으로 구성
  - 예) Apache Hadoop
Data Analysis
  - 데이터 분석을 위한 
  - 예) Apache Pig, Hive, Map/Reduce
Workflow
  - Job 제어를 위함
  - 예) Apache Oozie, LinkedIn의 Azkaban 등


<그림6> 하둡 아키텍처의 배치 처리
출처: http://hadoop.apache.org/




댓글 없음 :

댓글 쓰기