[디지털투데이 박근모 기자] 미국 실리콘밸리에 인공지능(AI) 센터를 운영 중인 바이두가 최근 '딥 보이스'라는 텍스트 음성 변환 시스템을 개발했다. 딥러닝이 적용된 '딥 보이스'는 구글의 '웨이브넷'과 유사한 기능으로 인간처럼 음성에 감정을 전달 가능하다.

9일(현지시간) 외신 엔가젯은 바이두가 AI 딥러닝 기술이 적용된 '딥 보이스' 텍스트 음성 변환 시스템을 개발했다고 밝혔다. 해당 기술은 인간과 유사한 감정이 적용된 소리를 합성 할 수 있다.

바이두에 따르면 구글의 '웨이브넷'이 실제 인간과 유사한 음성을 합성할 수도 있지만, 연산 작업이 복잡해 실제 애플리케이션이 적용하기 어렵다는 단점이 존재한다며, '딥 보이스'는 텍스트를 가장 작은 의미 단위인 '페놈(phenome)'을 딥러닝 기술로 변환 가능해 애플리케이션 적용이 웨이브넷보다 쉬워졌다고 설명했다.

바이두의 딥러닝 기술을 이용한 텍스트 음성 변환 시스템 구현 방법 (자료=바이두)

예컨대 'Hello'라는 단어를 음성으로 합성한다면, 기존 웨이브넷은 한 단어로 인식해 처리했는데 '딥 보이스'는 '침묵 hh', 'hh, eh', 'eh, l', 'l, ow', 'ow, 침묵' 으로 쪼개서 음성 변환 후 합성이 된다. 이 과정을 통해서 보다 인간의 감정에 유사한 음성의 합성이 가능해졌다.

바이두 연구원은 "컴퓨터가 인간과 같은 음성을 통한 상호 작용을 하기 위해서는 20마이크로 초 안에 단어를 생성해야한다"라며 "딥 보이스는 실시간 처리를 위해서 결과를 재연산하지 않고 프로세서 캐시에 '페놈' 단위로 저장 후 사용하는 방식을 적용했다"고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사