최근 업계를 불문하고 가장 많은 사람들의 관심을 끌고 있는 이슈 중 하나로 단연 ‘인공 지능(AI)’을 꼽을 수 있을 것이다. 지난 3월 열린 구글 딥마인드의 인공지능 바둑 프로그램 알파고와 바둑천재 이세돌 9단의 대국은 전 세계적으로 큰 화제를 불러일으켰다. 바둑 영역만큼은 기계가 인간을 넘어설 수 없다는 사람들의 예측을 뛰어넘어 알파고가 절대적인 압승을 거두었기 때문이다.

복합적인 지능과 판단력이 요구되는 바둑 영역까지 정복한 인공지능에 대한 관심은 점점 더 커져가고 있으며, 정보보안 분야 역시 예외는 아니다. 인공 지능 기술의 한 분야인 ‘머신 러닝(기계 학습)’을 정보보안 분야에 접목하는 시도가 계속되는 추세다. 공격 기법이 교묘해지고 분석해야 할 보안 데이터가 기하급수적으로 증가하고 있는 만큼, 인간의 개입을 최소화하는 선에서 위협을 빠르게 자동적으로 분석하고 알지 못했던 위협에도 기민하게 대처하기 위해서다.

머신 러닝은 인간과 같이 사고하고 행동하는 것을 총칭하는 인공 지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 데 초점을 두고 있다. 정보보안 분야에 적용하자면, 각종 보안 데이터를 자동으로 수집하고 분석하는 과정을 통해 보안 위협을 확인하고, 이를 통해 학습한 공격 특성과 패턴을 토대로 공격이 앞으로 어떻게 들어올 지 예측하는 모델을 만드는 것이라 할 수 있다.

■머신러닝 기반 악성코드 탐지

▲ 조승현 이글루시큐리티 컨설턴트

우선적으로 머신 러닝은 시그니처 기반의 보안 정책을 우회하는 다양한 신·변종 악성코드를 탐지하는 데 유용하게 활용될 수 있다. 오늘날 공격자들이 샌드박스를 회피하는 고도화된 공격을 시도하고 있는 만큼, 가상 시스템에서 악성코드를 분석하는 동안 발생하는 행위 정보를 토대로 위험성을 판단했던 기존의 탐지 방식은 패턴을 벗어나는 새로운 악성코드를 탐지하는데 한계가 있을 수 있기 때문이다.

머신러닝 기반 악성코드 탐지 기법은 정해진 패턴을 벗어나는 다양한 변종 악성코드를 빠르게 판별하고 자기 학습을 통해 분석 작업을 가속화하는 데 중점을 두고 있다. 바이너리 코드를 변경하는 방식으로 만들어진 멀웨어 변종들이 서로 유사한 행위 패턴을 보인다는 사실에 기반하여, 샌드박스 환경에서 수집된 모든 행위들을 데이터로 변환하여 벡터 환경에 그리고, 이 중 유사한 행위 데이터를 군집화(Clustering)하여 분류(Classification)하는 방식이다.

머신러닝은 분류된 그룹별 특성을 분석하여 비정상적인 행위를 분류한 모델을 만들고, 위협으로 의심되는 행위 데이터가 군집된 악성코드 분류에서 얼마나 벗어나 있는지를 확인함으로써, 해당 데이터의 악성 여부를 판단하게 된다. 또한, 특별한 사전 정보나 전문가의 개입 없이도 지속적으로 데이터를 수집하고 이를 분류, 탐지함으로써 분석의 정확성을 높이게 된다.

▲ 악성코드 행위 분석 예시 (출처: Automatic Analysis of Malware Behavior using Machine Learning)

■소프트웨어 취약점 분석

취약점 분석에 머신 러닝 기술을 접목하는 시도도 계속되고 있다. 단, 소프트웨어에 존재하는 취약점을 찾기 위해 요구되는 정보 수집에 한계가 있고 컴파일된 바이너리를 분석하는 데 많은 변수가 존재하는 만큼, 소프트웨어 취약점을 찾기보다는 알려지지 않은 취약점을 이용하는 ‘익스플로잇(Exploit)’ 공격을 차단하는데 초점을 두고 있는 모양새다. 익스플로잇 공격 분석은 익스플로잇이 유포ž실행되는 경로와 관련된 타임라인 및 취약점과 관련된 연관 키워드 분석을 통해 주로 이뤄지고 있다.

■디지털 포렌식

디지털 기기에 저장된 데이터를 수집, 복구, 분석해 활용하는 ‘디지털 포렌식’ 분야에도 머신러닝이 접목되는 추세다. 공격의 유효성을 판단할 수 있는 디지털 증거를 보다 빠르게 수집함으로써 피해가 확산되거나 사고가 재발되는 것을 방지하기 위해서다. 대용량의 원본 데이터에서 데이터를 대표하는 특징 정보를 추출하고 이를 분류하는 학습 알고리즘을 통해, 침해 사고 발생 시 사람이 모든 데이터를 일일이 들여다보아야 했던 어려움을 해소하고 빠른 시간 내 원하는 디지털 정보를 찾는데 도움이 될 것으로 기대되고 있다.

대표적으로, 스탠포드 대학교의 앤드류 더피(Andrew Duffy) 박사가 제시한 ‘머신러닝을 응용한 파일 조각 분류(CarveML: application of machine learning to file fragment classification)’ 연구를 꼽을 수 있다. 더피는 ‘지지도 벡터 머신(support vector machine)’, ‘다항시행접근 단순 베이지언 분류 모형(Multinomial Naïve Bayes)’, ‘선형 판별 분석(Linear Discriminant Analysis)’ 모델을 이용해, 파일 조각으로부터 시그니처, 논리구조 등의 고유 특성을 추출해 파일 형태를 판별해 내는 방법론을 제시했다.

■인공지능의 활약은 정보보안 분야로 확대될 것

머신러닝을 응용한 보안 솔루션 상용화는 아직 걸음마 단계에 머무르고 있다. 그러나, 날로 복잡해지고 위험해지는 오늘날의 보안 환경은 기업이 활용할 수 있는 모든 도구, 즉 기계와 인간의 상호작용을 통해 각각의 능력을 최대한치로 높여 사용할 것을 요구하고 있다. 인간의 힘만으로는 날로 증대되는 사이버 위협을 막기 어렵기 때문이다. 무한대의 연산능력을 갖춘 인공지능의 활약에 더욱 많은 관심이 쏠리는 이유다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지