[디지털투데이 박근모, 홍하나 기자] 4차산업혁명의 물결이 거세지고 있다. IBCM(사물인터넷(IoT), 빅데이터, 클라우드, 모바일)으로 대표되는 4차산업혁명은 인공지능(AI)와 결합하면서 더욱 무서운 속도로 우리의 실생활 깊숙히 파고들고 있다. 특히 그중에서도 AI를 기반으로 한 음성인식·비서 기술은 AI의 영역을 기존 사물에서 사람으로 대폭 확대시켰다.

글로벌 IT 기업들과 가전 기업, 통신 기업들은 앞다퉈 AI 기술을 개발하고 제품을 출시하며 AI가 지배할 4차산업혁명 시대에 주도권을 잡기위한 치열한 경쟁을 펼치고 있다.

알파고로 세상을 놀라게 한 AI가 어느 순간 특별한 것임을 우리 모두 인식하지 못하고 있다. AI가 본격적으로 우리 실생활에 예상보다 더 깊숙히 들어와 영향을 주고 있기 때문이다. 그리고 그 대표적인 분야가 바로 AI 음성비서다.

1950년대 시작된 AI...최근 '튜링 테스트' 통과 AI 출현

사실 AI는 최근에 나온 용어나 기술을 뜻하지 않는다. 영화 '이미테이션 게임'으로 유명한 영국의 과학자 앨런 튜링이 지난 1950년 '계산 기계와 지성(Computing Machinery and Intelligence)'이라는 논문에서 AI가 처음 시작됐다.

튜링 테스트는 사람과 컴퓨터가 대화해서 컴퓨터인지 사람인지 구별하는 테스트다.(자료=위키미디어)

특히 기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에 지능이 있는지 여부를 판단하는 '튜링 테스트'도 그가 처음 고안했다. 이는 쉽게 말해 기계와 사람이 서로 대화를 해서 사람이 대화하는 상대가 기계임을 구별할 수 없다면 그 기계는 지능적 사고가 가능하다는 것이다.

이 테스트는 기계가 사람의 음성을 인식하고, 이를 사람과 같은 감정이 들어간 목소리로 표현하지 못하는 한계로 그동안 통과를 한 사례가 없었다. 하지만 지난해 6월 영국 레딩대학교에서 열린 튜링 테스트 대회에서 러시아 프로그래머 블라디미르 베셀로프가 개발한 AI '유진 구스트만'이 5분 동안 심사위원 25명과 대화를 나눴고, 심사위원 중 33%가 진짜 인간이라고 판단하면서 튜링 테스트를 통과한 첫번째 AI로 인정받았다.

튜링 테스트를 최초로 통과한 AI '유진 구스트만' (사진=위키미디어)

물론 1950년대 처음 고안된 튜링테스트를 통과했다고 AI가 지성을 갖췄다고 할 수는 없겠지만, AI가 사람의 말을 인식하고 대화를 할 수 있는 일정 수준에 올라섰다는 점에서 큰 반향을 이르켰다.

이와 함께 지난 2014년 구글이 인수한 딥마인드는 딥러닝이라는 AI 머신러닝 기술이 접목된 '알파고'를 통해 지난해 3월 기계가 미칠 수 없을 것이라고 여겨졌던 바둑까지 정복하면서 AI가 우리 곁에 성큼 다가왔다.

이런 기반 기술을 바탕으로 글로벌 IT 기업들은 AI 음성비서 영역으로 뛰어들었고, 그 첫번째로 AI 음성비서 스피커와 스마트폰을 이용한 음성비서 서비스를 출시했다.

AI의 역사가 오래된 만큼, 음성인식 기술에 관한 연구도 이와 별개로 1952년 미국 벨 연구소에서 처음 시작됐다. 당시 벨 연구소가 개발한 음성인식 컴퓨터 '오드리'는 1부터 10까지 사람이 말하는 숫자를 메모리에 저장된 사운드 패턴과 비교해 해당 숫자에 대한 인식이 가능했다. 오드리는 사람의 목소리를 통한 숫자 음성 인식 테스트에서 98%에 달하는 음성 인식률을 달성해 이후 음성인식 시스템에 대한 큰 영감을 줬다.

AI가 본격적으로 사용되기 이전의 음성인식 시스템 중 대표적인 사례는 2011년 출시된 애플의 '시리'를 들 수 있다. 시리는 아이폰 사용자의 음성명령을 바탕으로 모바일 검색, 일정 관리, 전화 걸기, 음악 재생 등 다양한 생활편의 서비스를 제공했다. 또한 비슷한 시기에 출시한 삼성전자의 S보이스나 LG전자의 Q보이스 등도 음성명령을 통한 다양한 애플리케이션 제어가 가능했다. 하지만, 이들은 단순히 애플리케이션을 실행하는 정도에 그친 응용 서비스를 위한 음성 인터페이스 역할에 지나지 않았다고 인공지능 전문가들은 설명했다.

스스로 생각하고 판단할 수 있는 지능적 사고가 가능한 AI와 사람의 음성을 인식하고 대화가 가능한 음성인식 기술은 어찌보면 서로 결합할 수밖에 없는 관계일지도 모른다. 그리고 양 기술이 합쳐지면서 AI 음성인식·비서 분야는 한단계 도약했다. 그리고 우리 실생활 깊숙히 스며들었다.

현재 시중에는 아마존 에코, 구글 홈, 마이크로소프트 코타나, SKT 누구, KT 기가지니 등 다양한 AI 음성비서 스피커와 더불어 삼성전자 빅스비, 구글 어시스턴트, 애플 시리 등 스마트폰을 이용한 AI 음성비서에 이르는 다양한 제품들이 서로 치열한 경쟁을 하고 있다.

이들 제품에는 다양한 AI 엔진과 음성인식 기술이 탑재됐는데, 그 중 핵심은 바로 '자연어 처리(Natural language processing)'와 '의미 검색(Semantic search)' 기술이다.

AI 음성인식 핵심은 '자연어 처리'와 '의미 검색'

자연어 처리 기술(NLP)은 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술을 의미한다. NLP 기술은 사람의 음성 언어를 컴퓨터가 이해하도록 만드는 것으로 STT(Speech to text)와는 구분된다. STT는 사람의 음성 언어를 문자 언어 형태로 컴퓨터가 변환하는 것만을 말하지만 NLP는 음성 언어를 컴퓨터가 이해하는데 그 목적이 있다. 또한 의미 검색 기술은 음성 언어를 기반으로 컴퓨터가 의미를 분석해 최적화된 결과를 검색하는 기술이다.

이런 기술들은 AI가 접목되기 전까지 빅데이터를 이용한 규칙·패턴 기반, 통계 기반 등으로 디자인됐다. 이같은 추세는 AI가 탑재된 이후로도 당분간 지속됐는데, AI 머신러닝 알고리즘 중 하나인 '딥러닝'이 개발되면서 AI 성능 향상과 함께 NLP와 의미 검색 기술 역시 한단계 도약했다.

인공신경망 기반 딥러닝 알고리즘이 AI에 접목되면서 한단계 기술 반전이 이뤄졌다.(자료=플리커)

딥러닝은 '인공신경망(ANN)'에 기반한 알고리즘 기법으로 개발됐다. 인공신경망 기법은 지난 1989년 현 페이스북 AI 연구소 책임자로 있는 얀 르쿤에 의해서 처음 고안된 것으로 당시 높은 성능에 비해 10개의 숫자를 인식하는데 3일이 걸릴 정도로 학습 속도가 너무 느려 실제 이용이 불가능했다.

하지만 지난 2006년 제프리 힌튼 토론토 대학교 교수가 GPU(그래픽 처리 장치)를 이용한 인공신경망 기반의 딥러닝 알고리즘을 정리하면서 기존 단점이었던 느린 학습 속도를 개선했다. 특히 그의 제자들이 만든 AI 스타트업 '딥마인드'를 구글이 인수하면서 '알파고'가 세상에 나오게 됐다.

딥 러닝 알고리즘으로 AI 음성인식 한단계 진화

인공신경망 기반 딥러닝 알고리즘이 탑재된 AI는 데이터를 입력해 학습을 시키면 시킬수록 성능이 향상되는 현 모습을 비로소 갖추게 됐다. 특히 자연어 처리에 딥러닝 알고리즘이 적용되면서 기존에 단어 단위로 의미 분석을 했던 것에서 벗어나 구문 전체를 분석해 의미를 추론할 수 있는 수준으로 향상됐다. 현재 시중에 사용되고 있는 대부분의 AI 음성비서·인식 서비스는 이같은 기술이 탑재돼 사용되고 있다.

인공신경망 기반 딥러닝 도식도 (자료=구굴)

인공신경망 기반 딥러닝 알고리즘를 통해 자연어 처리와 의미 검색이 가능해진 AI는 학습을 위한 데이터가 정확도, 완성도 향상을 위한 가장 중요한 자원으로 떠오르면서 현재 데이터 확보를 위한 경쟁도 불러일으켰다.

대표적으로 독보적인 글로벌 검색 포털 사이트를 보유한 구글과 전통적인 온프레미스 서버 시장을 장악한 IBM, 전세계에서 가장 많은 사용자를 보유한 윈도OS를 갖고 있는 마이크로소프트, 글로벌 클라우드 1위 기업 아마존 등 데이터를 많이 보유하고, 수집하는 기업이 AI 딥러닝을 통한 성능 향상도 이룰 수 있는 환경으로 변화되고 있다. 현재 AI 기술의 리더로 이들 기업이 손꼽히는 이유는 바로 이같은 배경에 있다.

국내 기업도 음성비서 개발 박차

이처럼 다수 글로벌 기업과 마찬가지로 국내에서도 음성비서 시장이 점차 확대되고 있다. 국내에서는 글로벌과 마찬가지로 주로 음성비서가 스피커와 스마트폰에 탑재되고 있다.

국내에서 음성비서를 개발하고 있거나 개발한 기업들은 삼성전자, 네이버, 카카오에 해당된다. 하지만 사용면에서는 다양한 기업에서 활용하고 있다. 가장 먼저 국내에서 스마트 스피커를 선보인 곳은 통신사다.

AI 음성비서 스피커, 왼쪽부터 순서대로 아마존 에코, 구글 홈, SKT 누구 (사진=아마존, 구글, SKT)

지난해 9월 SKT는 음성비서 스피커 ‘누구’를 출시, 최근 KT는 ‘기가 지니’를 내놨다. 포털사인 네이버와 카카오는 연내 음성비서를 탑재한 스피커를 출시할 계획이다.

현재 국내에서 개발됐거나 개발될 서비스들은 이용자들의 실생활에 고스란히 스며들게 된다. 집 안에서 움직이지 않고도 스마트 스피커에 말하기만하면 음악을 들을 수 있으며, 일정, 날씨 등을 확인할 수 있다. 또 더우면 음성명령으로 에어컨을 틀 수 있으며, 장보러 가기 전 냉장고에 있는 식재료 목록을 음성으로 들을 수 있다.

네이버는 자체 기술 개발을 통해 음성비서를 개발하고 있다. 이와 함께 최근 네이버는 미국 실리콘밸리 음성인식기술기업 ‘사운드하운드’에 전략적 투자를 진행했다. 업계에서는 네이버가 사운드하운드의 기술력을 활용해 음성비서 기술 개발 고도화와 속도를 더할 것으로 전망된다.

네이버가 음성비서 등의 음성인식 기술을 연구하는 이유로는 ‘자율주행기술’에 핵심이기 때문이다. 최근 네이버는 국토교통부로부터 도로주행 임시허가를 받는 등 관련 기술 개발에 힘쓰고 있다. 자동차 안에서는 손을 사용하기 어렵기 때문에 음성비서, 음성인식 기술이 유용하다. 또한 네이버는 향후 타이핑에서 음성으로 인터페이스가 변화될 것이라고 전망하고 있다.

스마트폰에 탐재된 음성비서로는 최근 삼성전자에서 빅스비를 탑재한 스마트폰 갤럭시S8을 내놨다. 빅스비의 경우 딥러닝 기술을 이용해 사용자들로부터 얻은 정보와 사용패턴을 학습하며 더욱 고도화 된다. 음성, 이미지, 텍스트, 터치 등의 다양한 입력 방식을 통해 사용자의 상황과 맥락을 이해해 맞춤형 서비스를 제공한다.

삼성전자는 지난해 인수한 미국 소재 인공지능 플랫폼 개발 기업 ‘비브랩스’와 손잡았다. 삼비브랩스는 시리개발자들이 설립한 회사다. 하지만 이번 빅스비에는 비브랩스의 기술력이 들어가지 않았다. 비브랩스의 기술은 차기작 갤럭시노트8에 탑재될 예정이다.

또한 최근 삼성전자는 연내 빅스비를 냉장고에 탑재한다고 밝힌 바 있다. 빅스비로 사물인터넷 허브 솔루션으로 활용해 모든 자사 제품을 연결한다는 것이다. 이미 삼성전자는 빅스비를 모든 삼성기기에 점차 확대 적용할 것이라고 밝힌 바 있다. 예를 들면 에어컨, TV의 기능을 빅스비로 실행한다는 것이다.

이처럼 삼성전자가 음성비서를 개발하는데에는 인공지능이 디바이스의 인터페이스 부분에 있어서 혁명을 가지고 올 수 있다고 전망했기 때문이다. 삼성전자는 통합된 생태계를 형성하기 위해 각 서비스 공급자들이 인공지능 인터페이스에 접목될 수 있도록 해주는 기술을 필요로 했다. 따라서 삼성은 모든 기기와 서비스가 하나로 연결되는 인공지능 기반의 개방향 생태계 조성을 위한 것이다. 이에 삼성전자는 비브랩스와 협업해 인공지능 플랫폼을 스마트폰, 가전제품과 연결하는 개방형 서비스를 구축할 전망이다.

음성비서 개발 목적은 'AI 생태계 조성'

삼성전자와 네이버의 사례처럼 국내 기업들이 음성비서를 개발하는 데는 AI 생태계 조성이 목적이다. 인공지능 생태계를 조성하는데 음성비서는 인터페이스에 해당된다. 미래 기술에는 더 이상 사용자가 손으로 직접 누르지 않고 목소리로 명령을 시행할 전망이다. 따라서 인공지능 생태계에서 음성비서는 플랫폼과 이용자를 연결해주는 수단이 되는 것이다.

하지만 아직 전세계 음성인식 기술은 아직 도입단계다, 현재 음성비서의 장애물은 환경 요인을 많이 받고 있으며 인식의 정확성이 떨이지는 편이다. 조용하고 이용자가 또박또박 말을 할수록 정확도, 인식률이 높아지는 것이다. 반면 소음이 있으며 발음을 부정확하게 하지 않았을 경우 인식률은 떨어진다. 게다가 사용자의 목소리를 구별하지 못한다.

실제로 지난 2월 다수 외신에 따르면 구글의 AI 스피커 구글홈이 TV속 목소리에 반응해 오작동을 일으켰다. 뿐만 아니라 아마존의 AI 스피커 에코도 TV 속 목소리를 주인 명령으로 인식하고 물건을 주문한 해프닝이 발생했다.

따라서 음성비서 기술 개발에 있어 아직 걸음마 단계인 만큼 기술적인 보완이 이뤄져야 한다. 하지만 걸음마 단계인 만큼 걸음을 배우면 곧 쉽게 달릴 수 있는 것처럼 음성비서나 음성인식 기술은 빠른 속도로 발전될 것으로 보인다. 글로벌 기업이든 국내 기업이든 음성비서는 기계 학습 기술인 딥러닝 기술을 활용해 스스로 학습하기 때문에 사용자와 대화를 주고 받을수록 더욱 똑똑해지기 때문이다.

게다가 현재까지 음성비서를 가진 국내, 글로벌 기업 중에서 한국어를 지원하는 곳은 두 곳뿐이다. 바로 애플의 시리와 빅스비뿐이다. 물론 한국어 데이터를 입력하고 학습하면 문제가 없지만 이르면 3년 전부터 음성비서를 내놓은 마이크로소프트의 경우 이미 출시가 된 국가에서는 높은 음성인식률을 자랑하지만 국내에서는 걸음마 단계에 불과하다.

또한 음성비서 시대가 본격적으로 도래됐지만 국내 기업들은 뒤쳐졌다는 평가가 이어지고 있다. 지난해 삼성이 비브랩스를 인수하면서 본격적으로 개발에 들어가 다음달 음성비서 빅스비를 출시하지만 단시간 내로 성과를 내지 못하면 글로벌 업체들에게 밀릴 수 있다.

음성인식 솔루션 시장 연평균 약 40%씩 성장

시장조사업체 트렌드포스가 전망한 글로벌 음성인식 솔루션 시장 결과(자료=트렌드포스)

시장조사업체 가트너에서는 2019년에는 스마트폰 사용자의 20%가 음성비서를 통해 기
기와 상호작용할 것이라고 전망했다. 또한 시장조사업체인 트렌드포스에 따르면 전세계 음성인식 솔루션 시장은 2021년 159억 8천만 달러(한화 약 18조 2571억 원)로 커질 것으로 전망됐다. 연평균 성장률 약 40%를 웃도는 수치다.

따라서 음성비서 기술 성장은 시간이 지날수록 가속화될 전망이다. 우리 생활의 다양한 영역에서 음성비서가 탑재될 것으로 전망된다. 거실, 안방, 차량 등의 공간에서부터 냉장고, 세탁기, 에어컨, 스마트폰 등 공간에서부터 사물까지 음성비서가 탑재되어 실생활 어느 곳에서나 서비스를 이용할 수 있을 것으로 보인다.

관련 업계 관계자는 “음성비서 기술은 전세계적으로 걸음마 단계로 아직 기술적으로 보완해야할 점이 많다”면서 “향후에는 사용자와 자연스러운 대화뿐만 아니라 지금보다 훨씬 발전된 상호작용, 소통이 가능해질 것”이라고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사