[아이티투데이 구혜림 기자] 데미스 하사비스 딥마인드CEO가 밝힌 알파고의 알고리즘은 신경망이었다.

바둑을 두는 기사에게 가장 중요한 것은 수 읽기, 직관, 평정심이다. 알파고가 강점을 보일 것이라 예상되는 점이 바로 이 수 읽기다. 컴퓨터가 빠른 연산능력을 발휘할 수 있는 부분이다.

딥마인드가 바둑을 도전 과제로 택한 이유는 직관과 연산능력을 요구하기 때문이다. 데미스 하사비스는 바둑이 요구하는 패턴 인식 능력, 계획 수립 능력이 바로 인공지능에게 필요한 역량이라고 밝혔다.

데미스 하사비스는 바둑의 탐색공간이 거대하다는 것과 승률을 계산하는 평가함수를 만들기 어려운 것을 알파고 알고리즘 개발의 난점이었다고 밝혔다.

복잡성의 관점에서 체스와 바둑을 비교한다면, 체스는 말마다 움직이는 경로가 정해져 있고 둘 수 있는 수가 20개에 불과하다. 그에 비해 바둑은 위치마다 둘 수 있는 경우의 수가 200개 이상이다. 하지만 알파고는 이 방대한 경우의 수를 모두 계산하는 것이 아니다.

데미스 하사비스는 프레젠테이션에서 이세돌 9단에게 어떻게 수를 결정하는지 질문한 적이 있다고 말했다. 이세돌 9단은 모든 경우의 수를 계산하는 것이 아니라 '직관'에 의존한다고 대답했다고 한다.

신경망을 통해 단지 입력된 기보를 모방하는 것이 아니라 첫번째 네트워크로 자가경기를 하고 스스로 개선한 후 강화학습을 통해 2번째 정책망을 만든다. 자가경기 데이터를 통해 가치망을 만들었다. 이러한 기계학습의 과정을 수개월 간 거쳐 알파고는 3개의 신경망을 갖게 되었다.

▲ 데미스 하사비스 딥마인드 CEO가 알파고의 알고리즘을 설명하고 있다.

첫번째 정책망은 바둑판 상의 위치로 인풋, 아웃풋의 수의 확률을 몇 가지 경우의 수로 거를 수 있었다. 두번째 가치망을 통해 아웃풋을 0과 1 중 하나의 숫자로 도출할 수 있게 됐다. 0일 경우 백의 승리, 1일 경우 흑의 승리이다. 세번째는 알파고가 다음 수를 어떻게 둘지 검색 트리를 확대한다. 무한정한 경우의 수에서 다음 수를 선택하는 것이 아니라, 인간이 직관을 활용하듯 의미있게 좁힌 경우의 수 안에서 돌을 두는 것이다.

알파고는 젠, 프레지스톤과 같은 바둑 게임을 대상으로 495전 494승을 거두었다. 그 결과 알파고의 분산 기계력이 향상됐다.

2015년 10월 인간 프로 기사 판후이 2단과 5전 전승을 거뒀다. 전문가들의 예측보다 10년 이른 결과였다.

그리고 이세돌 9단이다.

데미스 하사비스는 궁극적으로 범용 학습 러닝머신을 만드는 데 이번 대국의 정보를 활용하고 싶다고 밝혔다. 승부가 결정나는 데서 대국이 끝나지 않고 5전을 모두 치르는 이유다.

사전에 프로그래밍 되지 않고, 여러 가지 분야에서 활용할 수 있는 AGI는 유연하고 적응가능하며 창의적인 것을 특징으로 한다. 기존 협의의 인공지능(Narrow AI)이 예측 불가능한 과제에서 불완전했던 한계를 개선하고자 하는 것이다.

▲ 데미스 하사비스 딥마인드 CEO는 게임에서 얻은 결과를 범용AI(AGI) 개발에 활용할 계획이라고 밝혔다.

1997년 당시 세계 체스 챔피언이었던 게리 카스파로프에게 승리한 IBM의 딥블루는 협의의 인공지능의 예이다. 프로그래밍된 정보에서 초당 2억 건의 포지션을 검색한다. 반면 알파고는 가치망과 정책망의 신경계를 선택적으로 탐색하고 스스로 학습하면서 초당 10만 건의 포지션을 검색한다. 직관을 활용해 매번 새로운 해결을 찾아내는 인간의 문제 해결 능력과 유사하다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지