이재진 교수(오른쪽에서 네 번째)와 연구팀 [사진: 한국연구재단]
이재진 교수(오른쪽에서 네 번째)와 연구팀 [사진: 한국연구재단]

[디지털투데이 석대건 기자] 한국연구재단이 서울대학교 이재진 교수 연구팀이 영어 기반 언어모델 라마(Llama)를 개량해 한국어 특화 언어모델을 개발했다고 2일 밝혔다. 

연구팀은 'Llama-Thunder-LLM'과 한국어 전용 토크나이저 'Thunder-Tok', 한국어 LLM 성능 평가용 'Thunder-LLM 한국어 벤치마크'를 온라인에 공개했다.

국내에서 한국어 특화 언어모델 개발에 대한 관심이 증가하고 있는 가운데, 데이터가 한정적이고 개발에 막대한 비용이 소요돼 중소 연구기관과 대학에서는 연구개발이 어려운 상황이다.

이에 연구팀은 데이터 수집부터 사후학습까지 언어모델 학습의 모든 단계를 자체 진행해 한국어 특화 언어모델 개발에 성공했다. 공개된 영어 모델을 활용하면서도 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 포함했다.

연구팀이 개발한 Llama-Thunder-LLM은 3TB의 한국어 웹 데이터를 수집하고 전처리해 기존 라마 모델에 연속학습과 사후학습 등의 개량 기법을 적용했다. 102B 토큰의 한국어와 영어 데이터를 1대1 비율로 학습해 영어 성능은 유지하면서 한국어 성능을 향상시켰다.

한국어의 문법적 특성을 반영한 토크나이저 Thunder-Tok은 기존 Llama 토크나이저 대비 토큰 수를 약 44% 절약해 추론 속도와 학습 효율성을 높였다. 형태소 기반 전처리와 언어적 특성을 반영한 기법을 개발해 같은 한국어 문서를 더 적은 토큰으로 표현할 수 있게 했다.

LLM 구축 흐름도 [사진: 한국연구재단]
LLM 구축 흐름도 [사진: 한국연구재단]

한국어 평가용 데이터셋을 포함한 Thunder-LLM 한국어 벤치마크는 한국어 LLM의 성능 평가 기반을 제공한다. 영어로 제작된 대표적인 벤치마크 데이터셋을 기계번역 후 도메인 전문가가 직접 교정하고 현지화를 진행했다. 문학적 문맥 이해 능력 평가를 위한 Ko-LAMBADA 데이터셋은 한국어 문장 내 중요한 명사를 예측하는 방식으로 새롭게 설계했다고 연구팀은 설명했다.

사후학습까지 완료된 Llama-Thunder-LLM-Ins 8B 모델은 한국어 벤치마크에서 전체 평균 65.0점의 성능을 기록했다. 기존 동급 모델 대비 가장 우수한 성능을 나타냈고 영어 벤치마크에서도 유사 규모 모델과 견줄 수 있는 수준의 성능을 기록했다. 연구성과는 '초거대 AI모델 및 플랫폼 최적화 센터' 웹페이지에 공개됐다.

이재진 교수는 "이번 연구는 학계도 자주적인 LLM 개발이 가능함을 입증하고 우리나라의 소버린 AI(Sovereign AI)에 기여한 의미 있는 결과"라며 "한국어 기반 LLM과 토크나이저, 벤치마크 데이터셋을 온라인에 공개하고 개발 과정 또한 상세히 기술해 누구나 후속 및 재현 연구에 활용할 수 있는 기반을 마련했다"라고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사