Hadoop 배포판
이전에 프로젝트 때문에 구축해놓은 하둡 서버가 있긴 했는데, 프로젝트 종료하면서 여차여차 사라졌었습니다. 그러다 다시 간단하게 프로젝트 시작할 일이 있어서 이번에 하둡을 다시 설치하게 되었습니다. 저번에는 하둡 2.2.0 버전으로 직접 설치했었는데, 이번에는 배포판을 이용해보기로 결정했습니다. 하둡 배포판에는 대표적으로 두 가지를 뽑을 수 있습니다.
물론 이 외에도 다음과 같이 수많은 하둡 배포판들이 존재합니다.
- CDH
- HDP
- MapR
- Intel® Distribution for Apache Hadoop
- Pivotal Software HD
빅데이터 쪽에서는 거의 대표급 주자라고 할 수 있는 Cloudera의 CDH 배포판을 먼저 생각해보긴 했는데, 해당 배포판을 설치해도 어차피 Cloudera Manager 같은 기능은 유료버전에 포함되어 있어 사용하지도 못할 것 같고 여러가지로 HDP 쪽으로 마음이 기울었습니다. 일단 HDP 쪽은 자신들의 개발 내용 자체를 모두 Apache Hadoop 프로젝트에 반영하고 있으며, 때문에 배포판의 구성 전체가 무료입니다. cloudera 같은 경우 Hadoop 자체도 자신들이 튜닝한 여러가지 기능들로 인해 cloudera 배포판에서 묶인 기능들이 있기도 합니다. 여러가지로 Hortonworks 의 정책이 맘에 들어서 이쪽으로 결정했습니다. 그냥 간단히 이용해보실 분들은 HDP Sandbox를 이용해서 VirtualBox나 VMWare 형식으로 받을 수 있지만, 저 같은 경우 프로젝트에 사용할 것이라 직접 설치를 시작했습니다. 설치와 관련하여서는 문서화가 아주 잘 되어 있어서 쉽게 진행했습니다만, 간간히 틀린 부분이 존재하기는 한 것 같습니다. 그래도 메뉴얼 자체가 원체 잘 되어 있어서 따로 설치 관련 해서 블로깅 할 필요가 없을 것 같더군요. 참 국내 기업인 그루터도 이제 배포판을 만들었다고 들었는데, 그루터(Gruter)도 여러가지 사정으로 인해 Enterprise 버전으로 배포하는 터라 사용해보지는 못하네요. 이번 DEVIEW 기간에 Cloumon을 봤었는데 전체적으로 매우 괜찮게 업데이트 된 것 같더라구요. 기회가 된다면 언제 써보겠죠 ?
HDP 설치
아래는 설치된 후 모습입니다. 일단은 HDFS, YARN, Zookeeper, HBase 를 설치한 상태인데 필요에따라 Hive와 Pig 정도는 추가로 설치해야 할 것 같네요. Tajo를 이용하고 싶었는데 공식 메뉴얼에 Tajo는 없네요. 직접 설치해서 사용해야 할 듯 싶습니다.
Ubuntu 14.04 버전에 HDP 설치는 권장하지 않던데, 아무것도 모르고 Ubuntu 14.04 로 노드들을 설치해놔서 그냥 진행했는데, 다행히 별 문제 없이 돌아가네요. Master Node 1 개와 Slave Node 3개로 구성되어 있습니다.
Hadoop Overview
Hadoop Job Nodes