빅데이터 트렌드가 익숙해지면서 전문가는 아니더라도 빅데이터 관련 전문용어 몇개 정도는 사용할 줄 알아야 한다고 생각하는 이들이 늘고 있다. 통계를 다루는 일에 대한 중요도는 최근 10여년간 다른 어느 분야보다도 강조돼왔다. 통계학 입장에서 보면 빅데이터는 데이터가 좀 더 다양하고 상대적으로 크기가 클 뿐이다.

통계적인 학문에 탄탄한 토대가 있으니 빅데이터 확산이 빠르게 일어난 것일 수도 있다. 통계학 저변이 얼마나 넓은 지 일반인들은 잘 모른다. 거의 모든 분야 박사학위의 논문에 통계분석이 빠지면 실증적으로 차별점을 증명하기가 어렵다. 그래서 학과별로 분야별 통계학이라는 것이 자리잡고 있다.

김동철 티맥스소프트 대표
김동철 유비케어 사외이사

누구나 초보시절이 있게 마련이다. 데이터를 분석하기 시작하는 초보 분석가 시절에는 데이터만 보면 달려들어 뭔가를 마구 알아내려고 한다. 어느 정도 수준에 오른 분석가라면 데이터를 보기전에 우선 어떠한 데이터인지 살핀다.

데이터를 구한 목적과 결과적으로 해결하고 싶은 목표의 연장선에서 적절한 데이터가 만들어졌는가는 분석 보다도 중요하다고 볼 수 있다. 통계를 이용하고자 하는 의사결정권자들은 결과를 미리 정해 놓고 거꾸로 결과에 부합하는 통계만을 골라 사용하는 경우도 있다.

국가가 발표하는 통계는 그 나라 신뢰도와 직결된다. 코로나 환자 수가 들쭉날쭉 하다면 어느 순간부터는 더 이상 관심을 갖지 않게 됨과 동시에 글로벌 외교 무대에서 왕따가 되고 마는 것이다.

분석으로 해결이 되지 않는 경우도 있다. 2004년 케냐에서 학생들 결석률을 줄이고자 연구가 진행됐다. 케냐 교육 환경은 열악했으며, 어린 학생들은 학교 수업 말고도 가사의 생업을 도와주는 경우도 있어 교육에 대한 가정적인 열의도 낮은 편이었다. 

해외 원조 사업으로 시작된 교육 사업은 학생을 대상으로 하는데, 학생들의 잦은 결석으로 교육의 효과를 보기 어려웠다. 원조사업은 우선 현장을 파악하느라 열정적으로 자료를 모으고 분석해서 당장에 필요한 것들을 지원 목록에 넣었다. 

자원봉사 선생님 모집, 교실의 확충, 충분한 교재의 공급, 장학금 지급, 교복제공 등등 절실한 부분에 자금을 투여했지만 결과적으로 결석율을 낮추는데 기여하지 못했고 따라서 케냐의 문맹율을 낮추는데 기여하지도 못했다. 

이러한 투자는 공익의 목적에 따라야 하고, 효과를 제대로 예측하고 결과도 그럴듯하면 좋겠다. 기존의 상관계수를 기반으로 하는 자료의 획득과 분석으로는 모든 유효한 변수를 다 찾아내는 것은 어려웠던 사례이다. 

이제부터가 빅데이터적인 접근이 필요한 단계이다. 교육과 관련이 없어 보이지만 간접적으로 학생들에게 영향을 주는 조금이라도 유효한 변수들을 찾기 시작했는데 상당히 중요한 요소를 발견했다. 

필수보건 부족으로 학생들이 여러가지 질병에 노출되어 있었던 것이다. '냉정한 이타주의자'(Doing Good Better, 윌리엄 맥어스킬, 2015)에서도 이 문제를 다루고 있다.

기생충약을 제공하는 출석장려프로그램 효과가 다른 모든 것을 합친 것의 14배나 되었다는 것이다. 이러한 발견은 비영리단체인 세계 기생충 구제지원 단체의 설립으로 이어져서 4000만건 이상의 기생충 치료 실적을 올렸다고 한다.

문제를 해결하는 진주 같은 실마리는 의도한 결과를 도출하기도하고 새로운 단체를 만들어 지구적인 도움의 손길이 헛되지 않게 한다. 

빅데이터의 큰 그림으로 조금 더 보자면, 이러한 프로그램으로 케냐 학생들 출석률 증가에 따라 문맹률 퇴치에 도움이 되었음은 물론이며, 10년간의 추적 조사 결과 이렇게 교육받은 학생들이 성인이 되어 평균 일하는 시간도 주당 3.4시간 더 많고 소득도 20퍼센트 높아서 세금을 많이 낸다는 것이다. 

장사꾼 같은 계산이지만 초기에 투자한 구충제 비용이 세금으로 돌아오는 거시적인 사이클이 완성된 것이라면 진정으로 보람 있고 남는 장사라는 생각이다. 이러한 투자와 연구가 진행되는 과정속에서 속히 도움을 주고 싶은 열정과 진정으로 효과를 보게 하자는 냉정이 시너지를 폭발 시킨 것이라 할 수 있다. 

생명을 다루는 일이나, 투자를 결정하는 일에는 열정과 냉정이 모두 필요하다. 개인들의 속성상 일반적으로 한사람이 이러한 두가지 속성을 모두 가지기는 힘들다고 생각한다. 그리고 제아무리 빅데이터라 하더라도 데이터 측면에서 전통적인 데이터에 비해 상대적인 것이므로 모든 문제를 한번에 해결하는 만능이 될 수 없다. 

열정적인 분석가가 빠른 시간에 문제를 해결했다고 한다면 일단은 전문가적인 리스크가 내재되어 있다고 의심해봐야 한다. 냉정한 해석가는 그러한 리스크를 찾아내고 대안을 제시함으로써 의도한 방향으로 분석이 진행되도록 한다.

조직에 열정적인 분석가만 존재 한다면 보이지 않는 리스크 때문에 의사결정에 큰 오류를 범 할 수 있다. 반대로 냉정한 해석가만 존재한다면 새로운 프로젝트의 시작은 아주 제한적일 것이고 시간도 오래 걸릴 것이다.

코로나의 현장에도 열정과 냉정이 공존한다. 열정적으로 환자를 치료해야 하는 동시에, 백신과 치료제를 만드는데 있어서는 냉정한 절차도 필요하다. 너무 서둘러도, 시간을 무한정 지체해도 안되는 현실의 목표를 마주하고 있는 것이다. 케냐의 사례에서와 같이 아직 발견되지 않은 보석 같은 실마리를 찾고 한국이 세계에 기여했으면 하는 바램이다. 이러한 서로 다른 두가지 온도를 함께 운용하는 직업이 소위 리더이다. 리더는 지휘자이다. 동일한 상황에서 지휘자에 따라 음악이 크게 달라진다는 것은 자명하다. 지휘하기에 따라 한국은 작지만 빅데이터 분야에서는 커질 수 있다는 생각이다.  
 

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사