2015년 9월 9일 수요일

주목해야 할 9가지 오픈소스 빅 데이터 기술

갈수록 많은 기업들이 더욱더 많은 데이터를 축적하며 경쟁력 향상을 위해 축적된 데이터의 레버리지 효과를 꾀합니다. 최근에 이런 빅 데이터 열풍의 중심에는 오픈소스 기술이 핵심요소로 자리 잡고 있음. 여기에서는 주목해야 할 아홉 개의 오픈소스 빅 데이터 기술을 소개합니다.

1. 아파치 하둡(Apache Hadoop)
데이터 집약적 분산형 애플리케이션(data-intensive distributed application)용 오픈소스 소프트웨어 프레임워크인 아파치 하둡1)은 더그 커팅(Doug Cutting)이 작업 중인 오픈소스 웹 검색 엔진인 넛치(Nutch)를 지원할 목적으로 개발한 것임
2. R
오픈소스 프로그래밍 언어이자 통계 계산과 가상화를 지원하는 소프트웨어 환경임
3. 캐스케이딩(Cascading)
하둡을 위한 오픈소스 소프트웨어 추상화 계층(abstraction layer)이며, 사용자들이 JVM 기반 언어를 사용하여 하둡 클러스터들에서 데이터 프로세싱 워크플로를 제작, 실행할 수 있도록 지원함
4. 스크라이브(Scribe)
스크라이브는 페이스북에서 개발한 서버로 2008년부터 릴리스 되어 사용됨
5. 엘라스틱서치(ElasticSearch)
셰이 바논(Shay Banon)이 아파치 루센(Apach Lucene)을 기반으로 개발한 엘라스틱서치는 분산형 레스트풀(RESTful) 오픈소스 검색 서버임
6. 아파치 H베이스(Apache HBase)
구글의 빅테이블을 모델로 하여 자바로 작성된 오픈소스 비 관계 열지향 분산형 데이터베이스(non-relational columnar distributed database)임
7. 아파치 카산드라(Apache Cassandra)
또 다른 NoSQL 데이터 스토어인 아파치 카산드라는 편지함 검색 기능을 강화할 목적으로 페이스북이 개발한 오픈소스 분산형 데이터베이스 관리 시스템임
8. 몽고DB(MongoDB)
더블클릭(DoubleClick)사의 설립자들이 개발한 몽고DB는 인기있는 또 다른 NoSQL 데이터 스토어로 몽고DB는 정형 데이터를 BSON(Binary JSON)이라고 하는 동적 스키마와JSON 같은 문서에 구조화된 데이터를 저장함
9. 아파치 카우치DB(Apache CouchDB)
아파치 카우치DB 또한 오픈소스 NoSQL 데이터 스토어 중 하나이므로 JSON을 이용해 데이터를 저장하고 있으며 자바스크립트를 질의 언어(query language)로, 맵리듀스와 HTTP를 API로 사용하고 있음

댓글 없음 :

댓글 쓰기