[디지털투데이 박근모 기자] 몇년 전만 하더라도 인터넷 상에 떠도는 정형·비정형 데이터를 수집해 의미있는 분석을 돌출해 낸다는 것은 그야말로 의미가 없거나 불가능한 일이라고 생각됐다. 4차산업혁명과 함께 정보통신기술(ICT), 그 중에서도 빅데이터와 인공지능(AI)이 빠른 속도로 발달하면서 불가능하다 여겨졌던 것들이 가능해졌다. 특히 빅데이터와 AI을 이용해 이번 제19대 대선 결과를 실제와 유사하게 맞추면서 미래 예측에 대한 가능성을 열었다.

지금까지 전통적인 여론조사 방법만을 이용해 여론의 향방을 예측했다면 앞으로 인터넷 등 온라인 상의 빅데이터를 분석해 예측하는 방법의 중요성이 커질 것으로 예상된다.

온라인 상에서 수집된 빅데이터를 AI로 분석할 수 있게 돼 그 중요성이 커지고 있다.(사진=위키미디어)

ICT 발달로 빅데이터와 AI를 이용한 예측 시장 활성화

국내 빅데이터 분석 관련 업계에서는 향후 AI를 기반으로 한 머신러닝이 본격적으로 빅데이터에 접목된다면 현재보다 더욱 완벽한 데이터 분석을 통해 정확한 예측이 가능해 질 수 있다고 전했다. 특히 이런 미래 예측은 선거와 같은 분야뿐만 아니라 금융, 제조, 교육 등 다양한 방면에 활용할 수 있어 유용성이 더욱 크다고 강조했다.

반면 한국갤럽, 리얼미터 등 전통적인 방식의 여론 조사를 통해서 예측하는 업계에서는 온라인 상의 빅데이터에는 해당 정보에 대한 정확성을 담보하기 어려워 해당 미래 예측 결과를 신뢰할 수 없다는 입장을 보였다. 특히 이들 업계에서는 빅데이터를 이용한 미래 예측 방식이 전통적인 방식을 대체하기는 어렵다는 반응이다.

빅데이터는 인터넷, 모바일 등 온라인 디지털 환경에서 만들어지는 대규모 데이터들을 말한다. 온라인 상의 텍스트, 이미지, 동영상 등 다양한 정형·비정형 데이터를 수집 후 이들 데이터 더미, 즉 빅데이터에서 특정 목적을 위한 의미 있는 데이터를 분석해 내는 과정이 예측의 첫 단계이다.

지금까지는 데이터를 무한정 수집할 수 없다는 물리적 한계와 방대한 데이터를 처리할 수 없는 기술적 한계로 빅데이터 분석이 활성화되지 못했다. 하지만 물리적 한계를 넘어설 수 있는 클라우드와 수집된 빅데이터를 분석할 수 있는 AI 기술의 발달로 지금까지 쓸모없는 존재로 여겨졌던 빅데이터에서 의미있는 데이터만을 추출해 분석할 수 있게 됐다.

특히 사람이 직접 설문조사를 설계했던 전통적인 방식과 달리 AI를 이용한 빅데이터 분석은 설계자의 의도나 편견 등 주관이 끼어들 여지가 적어 주어진 데이터에 따른 객관적 분석이 가장 큰 장점으로 꼽힌다. 이런 점은 이번 대선과 같은 다자 구도의 여론 조사에 있어서 온라인상의 데이터를 실시간으로 수집해 머신러닝을 통한 AI가 분석할 수 있어, 변화하는 여론을 빠르게 예측이 가능할 수 있었다.

빅데이터를 이용한 일주일 전 예측 결과와 실제 최종 결과가 유사하게 나왔다.(자료=파운트AI)

빅데이터 기반의 미래 예측은 이번 대선에서 큰 성과를 보였다. 특히 투표 일주일전부터 여론조사 공표가 금지된 '깜깜이 선거기간' 동안 온라인 상의 SNS 등 다양한 데이터를 수집해 분석해 예측한 결과 실제 최종 특표율과 유사한 수치를 보인 것으로 나타났다.

장덕현 한국갤럽 부장은 "빅데이터와 AI를 이용한 예측 결과의 경우 중간 과정이 생략된 상태로 해당 결과가 어떤 이유로 도출됐는지 확인이 불가능하다"라며 "온라인이라는 편향된 조건하에서 수집된 자료를 바탕으로 만들어낸 결과에 대한 신뢰성이 문제될 수 있다"고 지적했다.

빅데이터와 AI를 이용한 예측의 한계

빅데이터와 AI를 이용한 미래 예측 결과의 한계는 '온라인'이라는 한계와 어느 정도 일치한다고 다수의 전문가들은 말했다. 인터넷과 모바일로 대변되는 온라인 환경은 사용하는 세대가 특정 연령대, 즉 젋은 층 위주로 구성돼 있어 폭 넓은 연령을 대상으로 하는 미래 예측은 한계가 있다는 설명이다. 또한 예측의 결과를 분석해 앞으로 변화할 방향성은 살펴볼 수 있으나 변화하는 이유를 찾기 힘들어 과연 그 변화하는 방향성이 신뢰할 수 있은지가 문제로 꼽힌다.

주동원 파운트AI 대표는 "온라인 상의 빅데이터를 분석해 예측하는 방식의 한계점을 극복하기 위해 다양한 방법을 개발하고 적용하고 있다"라며 "이번 대선 결과 예측을 위해 온라인에서 수집된 빅데이터의 신뢰성을 높이기 위해 수집된 데이터 별로 가중치를 부여하고, AI 머신러닝을 통해 연령별 보정 작업 등을 적용했다"고 설명했다.

이어 "빅데이터 분석을 통한 예측의 정확도를 높이기 위해 다양한 방법을 적용한 결과 이전보다 향상된 결과를 내놓을 수 있었다"고 덧붙였다.

이에 대해 여론조사 업체 리얼미터 관계자는 "온라인에서 수집된 빅데이터에 연령이나 인구 등 통계 보정을 한다고 해도 정확도에서 떨어질 수밖에 없다"라며 "특히 온라인에서 수집된 빅데이터에는 긍정적인 내용뿐만 아니라 부정적인 내용도 키워드 단위로 수집할 수밖에 없어 일명 '가짜뉴스'를 통해 확산되는 거짓 정보에도 빅데이터 상에서는 유의미한 데이터로 인식해 잘못된 예측을 할 가능성이 높다"라며 빅데이터 분석이 실제 예측에 사용되기에는 시기상조라는 평가를 내렸다.

다양한 전문가들의 의견대로 빅데이터와 AI을 이용한 미래 예측이 아직 시기 상조일 수도 있다. 하지만 이들의 공통된 의견은 앞으로 빅데이터 속에서 의미 있는 데이터를 분석해 내는 기술이 발전한다면 향후 미래 예측을 위해 유의미한 수단이 될 가능성이 높다는 것이다.

주동원 파운트AI 대표는 "빅데이터와 AI을 이용한 미래 예측의 경우 비단 선거 결과를 미리 알기 위한 것만은 아니다"라며 "금융, 제조 등 여러 분야에 있어서 소비자의 방향성을 미리 알아내 상품 개발, 잠재 리스크 예측, 금융 시장 분석 등을 대비하기 위한 수단으로 중요성이 커질 것"이라고 강조했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사