[디지털투데이 석대건 기자] LG CNS가 AI 생태계 기여도를 높인다.
5일 LG CNS는 국내 처음이자 유일하게 AI의 자연어 이해를 위한 한국어 표준데이터 10만여 개를 제작해 국내 AI 업계에 무료로 개방한다고 밝혔다.
AI 학습용 표준데이터는 언어 관련 AI 개발에 필수 정보로, 해외의 경우 美 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있다. 그러나 우리나라는 한국어 표준데이터가 없어 개발 측에서 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.
이에 LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 ‘코쿼드 1.0’을 제작해 AI 업계에 공개했다.
공개 후 AI 오픈 커뮤니티인 ‘텐서플로우 코리아’에서는 LG CNS 행보에 큰 호응을 보였다. 네이버, 카카오 등 국내 유수 AI 기술 기업들과 AI 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서도 있다.
LG CNS는 ‘코쿼드 1.0’에 이어 ‘코쿼드 2.0’에서 한국어 표준데이터를 7만개에서 10만개로 확대했다.
‘코쿼드 2.0’은 기존 단답형에서 장문 답변이 가능하도록 AI를 개발할 수 있도록 데이터를 강화한 버전이다.
예를 들어, ‘코쿼드 1.0’에서는 "가장 나중에 출판된 해리포터 시리즈는?”라고 질문하면, "해리 포터와 죽음의 성물”하는 수준이었다.
하지만 ‘코쿼드 2.0’에서는 "해리포터 시리즈의 히스토리는?”라는 질문하더라도, “해리포터는 1997년부터 2007년까지 연재된 영국의 작가 J.K.롤링의 판타지 소설 시리즈다. 1997년 6월 첫 번째 책인 ‘해리 포터와 마법사의 돌’이 출판되었으며…” 같이 장문형 답변이 가능해졌다.
‘코쿼드 2.0’은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다. 이번 공개된 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 다운로드 가능하다.
현신균 LG CNS CTO은 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다”라고 밝혔다.
SNS 기사보내기
관련기사
- 이수만도 주목한 '블록체인'...SM이 그리는 미래 엔터사업은?
- 모빌리티를 지배하는 기업이 미래를 연다
- 최기영 후보자 "반도체·5G 장점 활용, 일본 수출규제 대응 및 자립화"
- 카카오 'AI 윤리 헌장' 개정...'포용성'이 들어간 이유
- 반도체 설계에 사용되는 AI…“머신러닝으로 7나노 공정 시간, 3배 단축”
- 과기정통부 2020년 예산 16.2조 편성...통합 이후 최대 증가폭
- "아현 화재는 잊어라" KT, 통신재난 예방 '차세대 인프라 기술' 선봬
- AI, 기술 개발 집중하다가 사회 문제 놓친다
- '카카오 크루' 체험해보니...하고 싶다, "오늘부터 카카오와 1일"
- 오픈소스 시대가 오고 있다
- LG CNS-메가존클라우드, '클라우드 전환·운영' 합작법인 설립
- 구글, 머신러닝 알고리즘 '텐서플로 2.0' 출시