"용케도 알아 듣고 찰떡같이 받아 쓰네”...일상 스며드는 음성 인식
"용케도 알아 듣고 찰떡같이 받아 쓰네”...일상 스며드는 음성 인식
  • 석대건 기자
  • 승인 2019.03.05 08:57
  • 댓글 0
이 기사를 공유합니다

[디지털투데이 석대건 기자] 요즘 김인식(75, 가명) 씨는 손주들과의 카톡에 빠졌다. 1-2년 전까지만 해도 상상도 못했던 일. 당시에는 “대화창의 글자 읽는 건 둘째”치고, “손톱만 한 버튼을 누르는 것도 힘들었다”고 고백했다. 

이제는 다르다. 음성 인식 기능 덕분이다. 김씨는 이모티콘까지도 보내는 여유도 생겼다. 가끔 오타가 있긴 해도, “찰떡같이 받아 써주는 게 신기”하다고 전했다. 그는 “진작 알았다면 아이들이 전화 안 받아준다고 서운하지 않았을 것”이라며, “이렇게라도 대화하는 게 즐겁다. 주위 노인네들에게도 알려주고 있다”고 말했다.

카톡 등 인스턴트 메신저는 음성 인식 기능을 통해 타이핑을 지원하고 있다. (사진=네이버 스마트보드 설정)

사실 음성인식 기능은 2017년부터 이통3사와 네이버, 카카오 등 IT 기업들이 너도나도 AI 스피커를 출시하면서 주목을 받았다.

그러나 천편일률적인 기능, 자연스러운 대화 불가, 부정확한 명령 전달 등 때문에 마케팅 이상의 성과를 거두지 못했다. 지난 CES 2019에서도 삼성전자가 인공지능 스피커 '갤럭시 홈'을 선보였고, 애플 뮤직이 구글 홈과의 연동을 발표했으나 크게 주목받지 못했다. 

한국소비자원 조사에서 밝힌 AI 스피커에 대한 불만사항을 보면 음성 인식의 한계를 명확하게 보여준다. AI 스피커 구매자의 56%는 ‘일상에서 음성 인식이 잘 되지 않는다’, 45%는 ‘자연스러운 대화가 어렵다’, 37%는 ‘외부 소음을 음성 명령으로 오인한다’고 답했다.

이렇듯 음성 인식은 핵심은 ‘일상’과의 접점이다. 이는 반대로, 일상에서는 충분히 음성 인식 기술이 쓰일 수 있음을 방증한다. 카톡처럼 말이다. 

KISA에 따르면, 우리나라 인터넷 사용자 중 커뮤니케이션 활동으로 카톡이나 라인과 같은 인스턴트 메신저를 이용하는 비율은 약 96%에 달한다. 스마트폰으로 인터넷을 이용하는 비율이 94.3%라는 점을 고려하면, 스마트폰을 사용하는 대부분이 인스턴트 메신저를 사용하는데, 이는 음성 인식 기능을 활용할 가능성이 있는 이들의 수치와 같은 셈이다.

우리나라 인터넷 사용자 중 카톡이나 라인과 같은 인스턴트 메신저를 이용하는 비율은 약 96%에 달한다. (자료=KISA)

음성 인식 기능의 핵심은 ‘일상’과의 접점

어도비에서 발표한 ‘2019 보이스 리포트’에 따르면, 미국 소비자 10명 중 4명이 하루 1회 이상 음성 기능을 키보드 대신 사용한다. 게다가 10명 3명은 IT기기나 인터넷을 사용할 때 키보드보다 음성 인식을 더 많이 활용하는 것으로 나타났다.

특이한 점은 가장 선호하는 음성 인식 기기가 스마트폰이라는 것. (약 47%). 사용 분야를 보면 ‘음악 감상’이 74%로 가장 많았고, 날씨 검색(66%), 알람 설정(49%), 뉴스 검색(44), 온라인 정보 검색(42%)이 뒤를 이었다. 

음성 인식 기반으로 작동하는 스마트폰 AI의 용도도 교통 안내 등이 가장 높은 빈도를 차지했다. 

자동차, 집 등 일상 영역에서 음성 지원 기능을 사용하는 비율이 압도적으로 높다. (자료=statista)

물론 음성 인식은 단순히 받아쓰기에 그치지 않기 때문에 어려운 것은 사실이다. 대화에서 말하기는 쉬워도 듣기는 어려운 것처럼 말이다. 

네이버랩스에서 자연어 처리 기술을 연구하는 강인호 리더는 테크포럼에서 “사용자가 원하는 답을 내는 게 중요하다”고 설명했다. 

만약 발화자가 ‘언뇽’이라고 발음해 기기가 ‘언뇽’이라고 인식하더라도, 자판에는 ‘안녕’이라고 나와야 한다는 것이다. ‘언뇽’보다는 ‘안녕’이 말하는 이의 의도에 가깝기 때문이다.

강인호 리더는 이를 “검색 결과가 잘 나올 표현이 아닌, 일상에서 사용하는 표현을 처리하는 것”이라고 설명했다. 네이버의 경우, 지식인 서비스에 등록된 2천 5백만 건에 달하는 질의와 응답 데이터를 기반해 의미를 판별한다고 밝힌 바 있다.

음성 인식 기능, 더 많이 쓰일 수 있을까?

사용자 경험을 유도하는 UX 디자인 업계 관계자는 “지금 음성 인식은 버튼을 눌러거나 특정한 이름을 부르고, 질문한 다음, 기다려야 하는 등 사용자가 원하는 답변을 얻기까지 3-4단계가 걸려 접근이 어렵다”며, “만약 AI스피커가 흥행하려면 철저하게 사용자 관점, 쉬운 일상 관점으로 다가가야 할 것”이라고 지적했다.

네이버 뉴스 스탠드에서 디지털투데이를 만나보세요. 디지털투데이 뉴스스탠드 바로가기 - MY 뉴스 설정
관련기사