韩国国家AI战略委员会2日与多家韩国主要AI企业举行座谈,围绕韩国自研AI基础模型“独派模”开发过程中面临的训练数据获取问题进行讨论。
LG AI Research、Upstage、SK Telecom和Motif Technologies出席会议,并介绍了“独派模”项目推进过程中遇到的实际困难。
LG AI Research表示,要扩大数据利用范围,首先需要完善相关制度安排。该公司称,若政府能够推进版权制度优化等配套措施,将有助于加快具备全球竞争力的“独派模”研发。
Upstage提出,为提升韩语AI竞争力,亟需完善数据基础设施,包括推进国立中央图书馆馆藏缴存图书数字化、完善文本与数据挖掘(TDM)免责规则,以及构建围绕专家推理过程的数据集。
SK Telecom建议,进一步完善政府提供的共享数据校验和清洗机制,强化行业数据供给,扩充韩语评测数据集,并推动解决公共数据许可相关问题。
Motif Technologies指出,仅靠单家企业难以完成大规模韩语预训练数据建设,建议由国家层面统筹建设和运营高质量韩语预训练数据集。同时,该公司还提出,应将目前以原始数据获取为主的支持项目,扩大至数据后处理和加工环节。
韩国国家AI战略委员会常任副委员长 Lim Moon-young表示,数据获取不是某一个部门或机构能够单独解决的问题,而是需要在国家层面共同推进的课题。委员会将统筹相关资源,推动更及时有效的支持措施落地。
另据介绍,委员会已在2月25日举行的第二次全体会议上表决通过《韩国人工智能行动计划》。该计划纳入了多项与数据获取和利用相关的任务,包括确保通用AI基础模型、依托国家数据整合平台提升数据质量、激活AI数据共享生态并完善个人信息及产业数据利用监管,以及推动形成以AI训练为目的的作品使用生态等。