[디지털투데이 황치규 기자] 인공지능(AI) 및 빅데이터 솔루션 업체인 솔트룩스가 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.

국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다는 계획이다. 이번 사업은 2019년부터 진행한 ‘국가 말뭉치 구축사업’ 일환으로 ▲구어, ▲일상 대화, ▲메신저 대화, ▲웹, ▲문어 등으로 나눈 사업 분야 중 일상 대화에 속한다. 

‘말뭉치’란 언어 연구 분야에서 언어 자료를 나타내는 용어로 연구 목적마다 구체적인 정의가 다른데, 이번 사업에서는 약 500시간 분량의 대화가 말뭉치 자료 기준으로 적용됐다.

솔트룩스는 이번 사업에서 약 2000명의 대화를 수집하고, AI 데이터로 구축하는 역할을 맡았다. 초기 단계에는 대화형 인공지능 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 인공지능이란 사람과 유사한 수준의 대화가 가능한 인공지능으로, 말뭉치 데이터가 주로 사용될 분야이다.  대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둘 것이라고 회사측은 설명했다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 변환된다. 이 과정에서 솔트룩스는 속기 전문 기업 소리자바와 협력한다. 텍스트 자료는 인공지능이 활용 가능한 데이터 파일로 가공되고 국립국어원이 요구한 메타 정보도 함께 심어질 예정이다. 솔트룩스는 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델도 제공한다.

솔트룩스 이경일 대표는 “세계 대화형 AI 시장과 비교해 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사