LG CNS, AI 개발 기반 한국어 표준데이터 10만 건 공개..."AI 개발 상생 이끌 것"
LG CNS, AI 개발 기반 한국어 표준데이터 10만 건 공개..."AI 개발 상생 이끌 것"
  • 석대건 기자
  • 승인 2019.09.05 15:29
  • 댓글 0
이 기사를 공유합니다

[디지털투데이 석대건 기자] LG CNS가 AI 생태계 기여도를 높인다. 

5일 LG CNS는 국내 처음이자 유일하게 AI의 자연어 이해를 위한 한국어 표준데이터 10만여 개를 제작해 국내 AI 업계에 무료로 개방한다고 밝혔다.

 AI 학습용 표준데이터는 언어 관련 AI 개발에 필수 정보로, 해외의 경우 美 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있다. 그러나 우리나라는 한국어 표준데이터가 없어 개발 측에서 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.

이에 LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 ‘코쿼드 1.0’을 제작해 AI 업계에 공개했다.

공개 후 AI 오픈 커뮤니티인 ‘텐서플로우 코리아’에서는 LG CNS 행보에 큰 호응을 보였다. 네이버, 카카오 등 국내 유수 AI 기술 기업들과 AI 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서도 있다.

LG CNS는 ‘코쿼드 1.0’에 이어 ‘코쿼드 2.0’에서 한국어 표준데이터를 7만개에서 10만개로 확대했다. 

‘코쿼드 2.0’은 기존 단답형에서 장문 답변이 가능하도록 AI를 개발할 수 있도록 데이터를 강화한 버전이다.

예를 들어, ‘코쿼드 1.0’에서는 "가장 나중에 출판된 해리포터 시리즈는?”라고 질문하면, "해리 포터와 죽음의 성물”하는 수준이었다. 

하지만 ‘코쿼드 2.0’에서는 "해리포터 시리즈의 히스토리는?”라는 질문하더라도, “해리포터는 1997년부터 2007년까지 연재된 영국의 작가 J.K.롤링의 판타지 소설 시리즈다. 1997년 6월 첫 번째 책인 ‘해리 포터와 마법사의 돌’이 출판되었으며…” 같이 장문형 답변이 가능해졌다.

‘코쿼드 2.0’은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다. 이번 공개된 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 다운로드 가능하다.

현신균 LG CNS CTO은 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다”라고 밝혔다.
 

네이버 뉴스 스탠드에서 디지털투데이를 만나보세요.
디지털투데이 뉴스스탠드 바로가기 - MY 뉴스 설정
관련기사