[아이티투데이 이경탁 기자] “하둡은 엄청난 규모의 비정형데이터를 처리할 수 있는 가장 저렴한 방식이기에 빅데이터 시대에 큰 주목을 받고 있다” 빅데이터 전문 기업인 맵알테크놀러지스의 스리바스 최고기술경영자(CTO)가 전한 말이다. 빅데이터 시대에 맞춰 '하둡'에 대한 관심이 뜨겁다. 최근 기업들은 하둡을 이용해 방대한 빅테이터 처리 비용의 절감은 물론 경영 의사 결정에도 활용하는 사례가 늘고 있다. 

시장조사업체 IDC에 따르면 지난 2013년 전 세계에서 생산되는 데이터 양이 지난 4제타바이트(ZB)에 불과 했는데 오는 2020년 10배 이상 늘어난 44ZB에 육박할 전망이다. 1ZB를 기가바이트(GB)로 환산하면 1조1000억GB다. 현재 매일 하룻동안 월마트에는 6250만 명의 고객들이 온라인 쇼핑을 즐기며 페이스북 사용자들이 업로드하는 이미지는 3억 5000만 장이고 유튜브에는 100시간 이상의 영상이 업로드된다.

▲ 전 세계에서 생산되는 데이터 양이 오는 2020년 44ZB에 육박할 전망이다 (사진=위키피디아)

현재 업계에 따르면 이런 비정형데이터들이 전체 데이터베이스 중 약 80% 이상을 차지하고 있다. 비정형 데이터란 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터를 말한다. 이런 비정형데이터에 기존에 비교적 손 쉽게 활용되던 정형화된 데이터 모두를 포함한 것이 빅데이터다.

미래학자 엘빈 토플러가 자신의 저서 '제3의 물결', '부의 미래' 등에서 정보화 사회를 예견하며 데이터의 중요성과 가치를 설명했다. 현대 사회는 물론 미래에서 데이터의 가치는 더욱 중요해지기 때문에 앞으로 기업들이 빅데이터 활용을 얼마나 잘 하냐에 따라서 기업의 흥망성쇠가 결정될 것이라는 말은 과장이 아니다. 

시장조사업체 가트너는 지난 2012년 빅데이터를 ‘미래를 바꿀 세계 10대 기술’ 중 하나로 선정하며 “데이터는 미래 경쟁력을 좌우하는 21세기 원유다”며 “기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다”라고 강조했다. 장은석 카카오 검색제휴파트장도 ‘데이터 시대 미래전략 세미나’에서 “데이터는 오래전부터 세상을 변화시켰고 새로운 데이터의 발견은 세상의 변화로 이어진다”고 전한 바 있다.

▲‘하둡’은 빅데이터 시대의 표준 플랫폼으로 인식되고 있다.

업계에서 빅데이터를 이야기할 때 가장 많이 언급되는 ‘하둡’은 빅데이터 시대의 표준 플랫폼으로 인식되고 있다. 왜 하둡일까. 기업 입장에서는 막대한 데이터를 저장해 모아두는게 큰 의미가 있다기 보다는 모아둔 데이터를 처리, 가공해 실제 기업 의사 결정에 도움이 되는 결과를 만들어야 한다.

기존 DB SQL은 정형화 된 데이터의 처리만 가능했지만, 하둡은 저렴한 하드웨어로 정형/비정형 데이터 구분없이 대용량 데이터를 저장(분산 처리)하고 활용할 수 있게 해 빅데이터의 분석(맵리듀스) 및 상용화를 앞당겼다. 하둡은 수천대의 분산된 서버들을 하나의 인프라로 연결해  대용량 파일을 처리하는 '분산파일 시스템(HDFS)'과, 분산된 서버에 저장된 데이터를 분석하는 플랫폼인 맵리듀스로 구성됐다.

우선 하둡은 비용적인 측면에서 큰 경쟁력을 가지고 있다. 맵알테크놀러지에 따르면 1 테라바이트(TB) 기준 으로 빅데이터 운영 비용은 데이터웨어하우스가 4000 달러(한화 약 467만원), 엔터프라이즈 스토리지가 9000 달러(한화 약 1000만원)지만 하둡은 1000 달러(한화 약 116만원)에 불과하다.

실제 미국 국세청(IRS)에 따르면 하둡을 이용해 ‘통합 탈세 및 사기 범죄 방지 시스템’을 구축, 페이스북, 트위터 등의 SNS에 있는 범죄자들의 데이터를 분석했고 연간 3450억 달러(한화 약 406조원)에 이르는 세금 누락을 막고 있다. 업계에 따르면 현재 삼성전자, 애플, 월마트, 이베이, 시스코, 소니, 버라이즌 등 글로벌 기업들에서도 하둡을 활용해 빅데이터 처리 및 분석을 하고 있다.

▲ 엣스케일 조사에 따르면 업계 관계자 76%가 앞으로 하둡을 더 많이 사용할 계획이다고 답했다 (사진=AtScale) 

하둡 솔루션 업체 ‘엣스케일(AtScale)’이 지난 9월 업계 관계자 2100명을 대상으로 한 설문조사에 따르면 응답자의 76%가 하둡을 사용할 계획 또는 앞으로 더 많이 사용할 계획인 것으로 나타났다. 이어 응답자들은 하둡을 사용하는 주 목적으로 하둡을 통한 '기업 전략 수립', '데이터 처리 비용절감'이라고 답했다.

반면, 하둡은 대용량 데이터 분석 과정에 있어서 한계점을 드러낸다. 이성몽 한국정보통신기술사협회 이사에 따르면 “하둡이 대용량 데이터의 배치작업 등의 처리 기능은 탁월하지만 스트리밍 작업 같은 실시간성 데이터분석, Reduce Task의 입력 데이터가 큰 작업에는 효율성이 저하되고 운영지원이 어렵다”고 설명했다.

또한, IBM이 주도하는 오픈소스 기반의 빅데이터 분석 기술 ‘스파크’가 최근 글로벌 기업들의 지원 및 투자가 늘며 활용사례가 증가하고 있다. 현재 스파크는 미국 중앙정보국(CIA), 에어비앤비, 도요타, 바이두, 우버 등에서 활용되고 있다. 특히 스파크는 하둡 맵리듀스의 약점인 ‘머신러닝’의 느린 처리속도를 커버하며 하둡의 자리를 위협하고 있다.

▲ 맵알테크놀러지, 클라우데라, 호튼웍스 등은 하둡 상용 배포판을 개발해 사용자들의 빅데이터 플랫폼으로의 접근성과 편의성을 높이고 있다.

이에 빅데이터 플랫폼 기업인 맵알테크놀러지, 클라우데라, 호튼웍스 등은 하둡 상용 배포판을 개발해 사용자들의 빅데이터 플랫폼으로의 접근성과 편의성을 높이고 있다. 마이크로소프트(MS)는 최근 하둡에 대한 지원을 강화하며 맵알 하둡 배포판을 MS 클라우드 플랫폼인 애저(Azure)에 결합해 제공하고 있다.      

칼 올로프슨 IDC 부사장은 “하둡은 전략적 의사결정을 실행하는 데 필요한 전술적 의사결정을 위한 프레임워크로서 주목을 받고 있다”며 “기업들은 실시간 운영 데이터 및 분석을 위한 단일 플랫폼 역할을 하는 ‘의사결정 데이터 플랫폼’으로 하둡을 활용하는 것도 고려해봐야 한다”고 전했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지