[디지털투데이 황치규 기자] 인공지능(AI) 및 빅데이터 솔루션 업체인 솔트룩스가 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.
국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다는 계획이다. 이번 사업은 2019년부터 진행한 ‘국가 말뭉치 구축사업’ 일환으로 ▲구어, ▲일상 대화, ▲메신저 대화, ▲웹, ▲문어 등으로 나눈 사업 분야 중 일상 대화에 속한다.
‘말뭉치’란 언어 연구 분야에서 언어 자료를 나타내는 용어로 연구 목적마다 구체적인 정의가 다른데, 이번 사업에서는 약 500시간 분량의 대화가 말뭉치 자료 기준으로 적용됐다.
솔트룩스는 이번 사업에서 약 2000명의 대화를 수집하고, AI 데이터로 구축하는 역할을 맡았다. 초기 단계에는 대화형 인공지능 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 인공지능이란 사람과 유사한 수준의 대화가 가능한 인공지능으로, 말뭉치 데이터가 주로 사용될 분야이다. 대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둘 것이라고 회사측은 설명했다.
수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 변환된다. 이 과정에서 솔트룩스는 속기 전문 기업 소리자바와 협력한다. 텍스트 자료는 인공지능이 활용 가능한 데이터 파일로 가공되고 국립국어원이 요구한 메타 정보도 함께 심어질 예정이다. 솔트룩스는 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델도 제공한다.
솔트룩스 이경일 대표는 “세계 대화형 AI 시장과 비교해 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”고 말했다.
SNS 기사보내기
관련기사
- 마이크로소프트, '팀즈'로 기업 넘어 원격 교육 시장도 대공세
- 이글루시큐리티, AI 보안 관제 특허 3건 추가 획득
- 틱톡, 새 CEO로 디즈니+ 만든 메이어 영입
- 한컴아카데미-공간정보품질관리원, "드론 활용해 공간 데이터 활용 늘릴 것"
- 가상자산 지갑 주소 바꿔치기하는 악성코드 경계령
- 아우디, 코로나19 관련 신차 보증 기간 무상 연장
- "백신 임상시험서 항체 형성"…미 증시 급등
- 비트코인 9700달러서 제자리걸음...알트코인 상승세 지속
- 화웨이, 美 상무부 추가 제재안 발표 후 "도살 행위" 강력 반발
- 아이폰SE·갤럭시A51·벨벳에도 조용한 이통시장...방통위 제재도 미뤘다
- 1분기 한국인이 가장 많이 결제한 온라인 서비스? 네이버-쿠팡-이베이 순
- 오토메이션애니웨어, 업무용 봇 개발 플랫폼 SaaS 방식으로도 제공
- 티맥스 "오픈소스 친화적 기업될 것"...오픈소스DB 기술 지원도 시작
- 솔트룩스, AI 관련 직원 100명 신규 채용한다