집계, 통계 그리고 빅데이터

선거때마다 뉴스는 여론조사로 표심의 향방을 국민에게 알리느라 여념이 없다. 주요 후보들에 대한 국민의 지지도가 근소한 차이라면 오차범위내 접전이라는 용어를 써서 통계적으로 차이가 없다는 말을 돌려서 말한다. 기왕에 돈을 들여 여론 조사를 하는 것이니, 몇가지 질문을 추가해서 조사대상자들이 어떤 답을 하였는지에 대해 설명을 더 한다.

나이대별과 지역별 선호도의 차이를 지도로 보여주기도 하고, 인물과 정당의 지지도가 동일한지 아닌지 등의 설명을 전한다. 이러한 대국민 여론조사를 실시하는 기관에서는 소수의 의견이 최대한 전체를 반영할 수 있도록 가능한 모든 소집단에서 동일한 확률로 표본을 수집하는 계획을 수립한 후 전화번호 등의 연락처로 의견을 수집한다. 이건 집계라고 봐야 한다.

전화 통화로 간단한 몇가지의 문항을 물어서 선거의 결과를 예측한다는 것은 어려운 일이다. 문항은 대부분 단편적인 것이다. 그 결과물로 할 수 있는 것은 기껏해야 개인들의 결과를 집계해서 여러가지 그룹으로 분류하여 보여주는 초기적인 올랩(OLAP/On-Line Analytical Processing) 기능이라고 해겠다. 여기서는 기계적인 데이터의 나열과 간단한 분류에 의한 도식화가 종착역이다.

선거캠프에서 이러한 여론조사 결과를 보고 정밀한 전략을 세울 수 있을까? 경쟁에서 이기려면 더 많은 데이터가 필요하다. 그러한 데이터는 다양한 각도의 인과 관계를 분석하는데 도움이 되며 수많은 전략들 속에서 가장 효과적인 것을 찾아내어 수행할 수 있게 해준다. 이제부터 통계라는 마을로 진입하는 것이라 볼 수 있다.

어떤 일이든 데이터를 구하는 일에는 목적이 있다. 선거 이외에도 정부의 모든 부처는 행정업무에 대한 데이터를 저장하고 있으며, 그러한 데이터를 근거로 국가가 운영되고 있다. 요즘처럼 일자리에 대한 이슈가 커졌을 때는 노동부의 퇴직연금 지급이 직장인들 사이에서 화제일 수 있다.

직장인이 회사의 사유로 또는 본의 아니게 사직을 하게 되었을 때, 재직기간동안 들어 놓은 퇴직연금을 받을 수 있다. 그러나 여러가지 이유로 부정수급자들도 적지 않은 것이 현실이다. 최대로 복잡한 집계 자료나 그에 따른 초보적인 통계 분석으로는 부정수급자를 가려내거나 예측하는 것은 어렵다. 과학 수사하듯이 데이터를 마음대로 요리해서 모델을 만들어 내야 한다. 데이터 과학자들이 곳곳의 연구소에서 보이지 않는 손으로 이러한 일들을 하고 있다.

질문을 잘하는 사람은 질문을 구체적으로 하는 사람이다. 진짜로 관심이 있다면 저절로 구체적일 수 밖에 없다. 선거에서 특정 후보자에 대한 지지율이 30대와 60대의 나이에서 확연하게 높다면 왜 그런지 당연히 궁금해야 한다. 퇴직연금의 부정 수급자가 특정한 지역에서 많이 발생한다면 왜 그런지 이유를 밝혀야 한다. 이유에는 또다른 원인이 있을 수도 있다.

이러한 현상을 초기에 전반적으로 알아내는 것은 집계와 올랩의 기능으로 가능하다. 그런 연후에 추가적인 데이터의 확보와 전문적인 손길로 인과관계를 파헤치는 노력이 더해진다면 논문 수준의 심오한 결과를 얻을 수 있을 것이다. 아울러 그에 따른 실행계획도 세울 수 있을 것이다. 이러한 실행계획이 구체화되기 위해서는 빅데이터가 등장한다.

세상이 어려울 때는 복지부에서 각종 바우처 사업을 통해서 어려운 사람들을 돕는다. 그러나 바우처 사업이란 게 반드시 의도한 대로만 흘러가지 않는다. 불법으로 바우처를 획득하고 거래하는 경우가 뉴스에 등장하곤 한다. 전국민을 부정수급자로 의심할 필요는 없다. 필요한 사람들에 관해서 적절한 절차를 더한다면 미연에 방지할 수도 있겠다는 생각이다.

전자정부의 고도화가 십년 이상 진행되고 있으므로 부처별로 흩어져 있는 데이터 웨어하우스를 연동해서 빅데이터를 구현한다면, 그것을 데이터레이크라 불러도 좋겠다. 복지부의 바우처 부정수급자는 노동부의 퇴직연금 부정수급자와 어떤 관계가 있을까? 국세청의 자료와 연계해서는 어떤 특징을 발견할 수 있을까?

그러한 사람들은 SNS상에서 어떠한 대화의 특징을 가지고 있을까? 부정수급자 모델에서 10% 근접한 사람의 리스트를 추출 한다면 어떠한 특징을 가지고 있을까? 이들은 진짜로 부정 수급자로 드러날 것인가? 빅데이터가 제대로 의미를 부여하기 시작한다면 부정 수급의 원인이 되는 숨어 있는 변수를 찾아내어 미연에 방지하는 프로세스를 효과적으로 만들 수도 있을 것이다.

군에 관심사병이 있다면 사회에는 관심시민도 있을 수 있다. 물론 자칫 관심이 지나쳐서 개인정보 오남용이나 사회적 낙인으로 이어지면 안되겠지만 말이다. 빅데이터의 세상에서는 인공지능 엔진이 작동하고 있다. 모든 데이터를 접속 가능한 상태로 만든다면 인공지능은 지치지도 않고 궁금증에 대한 결과를 도출할 수 있다.

자본시장에서도 선의의 투자자를 보호하고 건전한 투자문화를 양성하기 위해 빅데이터적인 접근이 필요하다. 투자를 받기위해 서두르는 과정에서 데이터의 왜곡이 일어나게 마련이다. 기업공개를 통해 자본을 조달한 기업이 이후에 점차로 경영상태가 악화일로에 있다면 객관적인 분석이 이루어진 것이 아니라고 생각한다.

작은 사기업이 부도가 난다면 작은 문제이다. 그러나 수천명의 중견기업이나 대기업의 부실은 사회문제가 될 수도 있다. 더구나 그러한 기업이 대규모의 투자까지 유치하고도 부도를 낸다면 사전에 막지 못한 책임도 있을 수 있다. 시중에는 대규모 금융기업이 관련된 사모펀드 사건들이 한두가지가 아니다. 한달만 미리 알았더라면 좋았을 것이다. 객관적이고도 투명한 빅데이터적인 절차는 이러한 문제를 해결하고 긍정적인 뉴스가 있는 저녁시간을 만들어 줄 수 있을 것이다.

김동철 공학박사(베스핀글로벌 고문) delight@d-today.co.kr

상단영역

본문영역

집계, 통계 그리고 빅데이터

SNS 기사보내기

관련기사

개의 댓글

댓글 정렬

내 댓글 모음

본문영역

키워드

SNS 기사보내기

관련기사

내 댓글 모음