[아이티투데이 박근모 기자] ICBM(IoT, Cloud, Big data, Mobile) 시대가 한층 가까워졌다. ICBM 시대에는 굳이 빅데이터를 따로 언급하지 않아도 될 만큼 IoT와 클라우드, 모바일 분야에서 데이터가 넘쳐나게 됐다. 바야흐로 '데이터 폭증'의 시대라 할 수 있다.

이같은 ICBM 데이터 폭증은 필연적으로 넘쳐나는 데이터를 분석하는 빅데이터 분석 분야에 있어서 그 중요성이 날로 높아지고 있다.

빅데이터 분석을 누가 더 빠르고 정확하게 하느냐가 ICBM 시대에 생존을 결정지을 것이다.

지난 1일 슈레시 스리니바스 호튼웍스 공동창립자 겸 하둡 개발자와 함께 빅데이터와 하둡에 대한 이야기를 나눴다.

"하둡은 빅데이터 처리에 있어서 가장 빠르고 효율적인 솔루션이다" 슈레시 스리니바스 하둡 개발자는 첫마디를 이렇게 시작했다.

2006년 더그 커팅이 창안한 하둡은 아파치 재단 오픈소스 프로젝트로 세상에 이름을 널리 알리게 됐다.

하둡은 첫 시작부터 대량의 데이터, 즉 빅데이터 처리를 효율적으로 하기 위해 만들어졌다.

물론 기존 서버에 저장된 데이터를 처리하기 위한 방법으로 MySQL과 SQL 등이 존재했다. 하지만 이들은 직렬 데이터 처리시스템 방식으로 구성되어있기에 데이터가 예상보다 많아질 경우 서버를 새롭게 구축하는 방법으로만 해결할 수 있다는 치명적인 문제를 가지고 있다.

하지만 더그 커팅이 하둡을 개발할 당시 처음부터 기존 직렬 처리 방식이 아닌 병렬 처리 방식인 GFS(분산 파일 시스템)을 기반으로 제작하여 데이터가 예상보다 많아질 경우에도 손쉬운 확장이 가능하다는 점에서 큰 주목을 끌게 됐다.

▲ 슈레시 스리니바스 호튼웍스 공동창립자 겸 하둡 개발자. 기존 하둡1.0의 문제를 개선한 하둡2.0을 통해 하둡은 빅데이터 처리에 있어서 가장 효율적인 솔루션이라고 강조했다.(사진=호튼웍스)

■ 하둡의 강점은 "전용 하드웨어를 필요로 하지 않는다는 점"

슈레시 스리니바스 하둡 개발자는 하둡의 강점으로 "기존 시스템과는 달리 전용 하드웨어를 필요로 하지 않다"는 점을 지목했다.

빅데이터를 처리하기 위한 솔루션으로 하둡을 이용시 전용 하드웨어가 아닌 일반적 x86 시스템을 이용해서 빠르고 손쉽게 확장을 할 수 있고, 페타바이트(PB)까지도 지원가능하다고 설명했다.

이점은 ICBM 시대에 있어서 가장 핵심적인 내용일수 있다. 데이터 폭증의 시대에 빅데이터를 처리하는 이유가 바로 효율성과 정확성을 기존보다 향상시키기 위한 것이다. 하지만 기존 시스템으로는 빅데이터 처리에 많은 인적, 물적 자원과 비용 등이 폭발적으로 증가할 수밖에 없게 되고, 이는 빅데이터 분석·처리로 인해 효율을 높이기 위한 방안이 오히려 비효율적으로 자원만을 투입해야만 하는 주객이 전도될 수 있기 때문이다.

■ 병렬처리 구조의 문제점...하둡2.0에서는 해결

빅데이터 처리에 있어서 병렬처리 구조를 갖고 있는 하둡이 전세계에 공개된 이후 많은 빅데이터 솔루션 업체로부터 공격의 대상이 됐다.

이유로는 하둡은 병렬처리 구조로 이뤄져 있어서 처리속도가 기존 시스템보다 느리고, 구조가 복잡하여 프로그래밍을 하기가 어렵다는 점 등이 있다.

슈레시 스리니바스 하둡 개발자는 이에 대해서 기존 하둡, 그러니깐 하둡1.0 버전에서는 이런 문제 제기에 있어서 어느 정도는 합당한 측면도 있다고 인정했다.

하지만 "기존의 하둡1.0에서 존재하는 맵리듀스 문제는 하둡2.0으로 넘어와서 모두 개선된 상태"라고 강조했다.

또한 "하둡2.0에서는 '얀'플랫폼을 통해 아파치 스파크, 아파치 스톰, 아파치 스트리밍, 아파치 나이파이, 아파치 하이브 등 다양한 솔루션을 사용자에 필요한만큼 자유롭게 사용 가능하다"고 주장했다.

덧붙여서 "얀 플랫폼은 OS라고 생각하면 쉽다면서, 예컨대 안드로이드와 유사하다"고 설명했다.

안드로이드 OS는 해당 OS 위에서 사용자가 필요한 애플리케이션을 자유롭게 설치해서 사용 가능한대, 얀 플랫폼 역시 이와 비슷하게 아파치 소프트웨어 재단이 개발한 오픈소스 프로그램들을 사용자가 자유롭게 필요한 부분을 얀 플랫폼 위에 설치하여 사용할 수 있다.

슈레시 스리니바스 하둡 개발자는 "하둡2.0은 클라우드도 지원하게 한다"고 설명하며 "현재 마이크로소프트 애저 클라우드와 공동으로 하둡2.0을 협력 개발 중"이라고 전했다.

하둡이 클라우드에서도 사용할 수 있게 되면서 99.99%의 가용시간을 보장하고, 사용한 만큼만 비용을 지불하면 되는 클라우드의 특성상 하둡을 구동하는데 드는 비용이 기존보다 5~6배가 줄어 들 수 있다고 슈레시 스리니바스 하둡 개발자가 주장했다.

호튼웍스 관계자는 "하둡의 경우 아파치 커뮤니티를 통한 거대한 에코시스템이 구성되어있다"며 "하둡 솔루션을 운영하는 과정에서 문제 발생시 하둡 에코시스템을 통해서 전세계 하둡 엔지니어들로부터 문제 해결에 대한 정보와 솔루션을 얻을 수 있다"고 강조했다.

■ 하둡, 오픈소스 정책 지지...빅데이터 경쟁자와 상생 전략 택했다

끝으로 슈레시 스리니바스 하둡 개발자는 "하둡은 오픈소스 정책을 지지한다"며 "기존에 빅데이터 처리를 위해 경쟁했던 오라클, 마이크로소프트, 인포매티카, 데라데이타 등의 기업과 지금은 협력 체제 구축을 통해 경쟁이 아닌 상생을 하고 있다"고 전했다.

더불어 "호튼웍스에서는 하둡 관련 온라인 무료 강의, 전문강사 강의, 중소기업을 위한 공동 구매 방식 등을 통해 빅데이터 프로젝트를 성공적으로 이룰 수 있도록 지원할 계획"이라고 설명했다.

호튼웍스 관계자는 "2011년 얀 플랫폼 출시 이후 하둡2.0의 핵심기능으로 자리잡았다"며 "내년에는 하둡3.0을 공개하면서 차세대 얀 플랫폼을 제공할 계획"이라고 언급했다.

한편, 호튼웍스는 2011년 야후의 하둡 엔지니어들이 설립한 기업으로 아파치 재단과 함께 하둡 관련 30개가 넘는 프로젝트를 수행중이다. 현재 전세계 1000개가 넘는 고객들에게 솔루션을 제공 중이다.

올해 마이크로소프트 애저와 함께 한국에서 클라우드 하둡 서비스를 제공하기 시작했고, 내년에는 AWS와도 함께 서비스를 제공할 계획이다.

하둡3.0는 HDFS 이레이저, 어셈블리 도커, 애플리케이션 배포 단순화 기능 등이 추가될 계획으로 2017년 출시 예정으로 알려졌다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지