하둡(Hadoop) 관련 최대 행사인 하둡 서밋의 기조연설 주제와 기술 세션 주제를 보면 그 해 빅 데이터의 화두가 보인다. 보안은 늘 빠지지 않는다. 2016년 하둡 커뮤니티는 아파치 레인저(Apache Ranger)를 활용한 사용자 인증과 접근 제어에 대한 큰 그림이었다. 레인저는 그동안 하둡 커뮤니티가 일궈온 데이터 보호를 위한 기술 혁신에 방점을 찍는다. 암호화, 키 관리에 이어 사용자인증, 접근 제어, 감사까지 각국 정부의 규제를 만족할 기본 틀이 완성되기 때문이다.

■빅 데이터와 규제 그 오묘한 관계

개인정보보호 관련 규제가 빅 데이터 활성화를 막는다는 주장은 늘 있었다. 규제가 빅 데이터 발목을 잡는다는 머릿기사를 보는 것도 이제는 물린다. 구체적으로 답을 제시하는 이보다는 문제만 지적한다. 다행히 빅 데이터의 상징인 하둡 커뮤니티는 보안을 늘 염두에 두고 해결책을 하나씩 마련했다. 다만 우리가 관심을 두지 않아 자세히 몰랐을 뿐이다.

▲ 박창선 IT칼럼니스트

■데이터 보호 규제 거뜬히 만족
 
데이터 측면에서 규제 준수의 핵심은 암호화, 사용자 인증, 감사이다. 이는 빅 데이터도 마찬가지다. 하둡 커뮤니티가 데이터 보호(Data Protection)에 대한 구체적인 기술적 방안을 제시한 것은 2014년경부터였다. 이때부터 개인정보보호 관련 규제인 PCI-DSS, HIPPA 그리고 한국의 개인정보보호법 등이 권고하는 기술적 기준을 어느 정도 맞추어 갔다.

■디스크를 넘어 TED, 컬럼, 메시지 암호화까지 거뜬해

얼마 전까지만 해도 기업의 빅 데이터 암호화 접근법은 단순했다. 이런 저런 신경 쓸 필요 없는 디스크나 운영체제 수준 암호화를 택하였다. 기존 환경에 변화를 가할 필요 없이 쉽고 빠르게 규제를 만족시킬 수 있으므로 빅 데이터처럼 다양한 요소가 복잡하게 얽혀 있는 환경에 잘 맞기도 했다. 하지만 디스크 수준 암호화를 위해 젬알토나 보메트릭 같은 상용 솔루션을 이용하거나 리눅스 커널용 디스크 암호화 기능인 LUSK/DM-CRYPT 쓰는 것은 근본적인 대책이 아니다.

규제는 늘 변하고, 요구 조건도 달라진다. 또한, 데이터의 유형과 위치도 다양해진다. 기업은 지속 가능한 데이터 보호 전략을 세워야 하고, 기술 역시 단편적인 것보다 변화에 유리한 것을 택해야 한다. 하둡 생태계는 이런 시장의 요구에 부응하기 위해 암호화 선택지를 넓히고 있다.

하둡 생태계는 HDFS와 HBase에 투명한 데이터 암호화(TDE: Transperent Data Encryption)를 적용했고, Hive에 컬럼 수준 암호화를 지원했다. 토나이제이션과 형식 유지 암호화(OPE: Format Persering Encryption) 역시 가능하다. 일례로 Flume, NiFi, Sqoop 등에 데이터를 넣는 과정에서 토크나이제이션을 이용해 원래 정보를 비식별화할 수 있다. 토크나이제이션과 FPE의 경우 프로티그리티(Protegrity), 볼티지 시큐리티(Volage Security)와 같은 빅 데이터 전무 보안 솔루션 개발사도 시장에서 활동하고 있다.

■키 관리와 인증, 감사까지 뭐 하나 빠지는 것 없어

하둡 커뮤니티는 암호화 방식을 늘리는 가운데 중앙집중적인 키 관리 방안도 내놓았다. 하둡 커뮤니티가 내놓은 KMS(Key Management Server)는 다양한 상용 하드웨어 시큐리티 모듈(HSM)이나 키 관리 솔루션과 API로 연결해 쓸 수 있다.

인증과 감사의 경우 아파치 하둡 얀(YARN), 아파치 녹스(Knox), 아파치 레인저(Ranger)의 조합이 조화를 이룬다. 얀과 레인저는 강력한 사용자 접근 통제 체계를 이룬다. 얀을 이용하면 대규모 HDFS 클러스터 상에서 운영되는 Hive, Oozie, HBase 등에 대한 관리자 권한을 분리할 수 있다. 여기에 레인저를 더하면 데이터 수준의 강력한 접근 제어와 감사 활동이 가능하다. 녹스의 경우 API 차원에서 빅 데이터 플랫폼에 연결되는 서비스에 대한 접근 제어를 담당하다. 즉, 데이터, 서비스, 관리자 모든 측면에서 권한 관리와 접근 제어가 이루어지는 것이다.

■구슬이 서말이라도 꿰어야 보배
 
시장의 우려만큼 빅 데이터 보안 체계는 허술하지 않다. 다만 하둡 커뮤니티의 기술 혁신을 제 속도로 쫓으며, 이들을 기업의 눈높이에 맞는 솔루션과 서비스로 엮어낼 수 있는 역량 있는 전문 업체를 찾기 힘들 뿐이다. 물론 성능, 연계 등 실제 구현 단계에서 검증해야 할 것이 많겠지만, 분명히 대안이 있다는 사실을 직시해야 할 때이다.

키워드

#하둡
저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지