韩国政府推进的自主基础模型开发项目初评结果正式公布。经过对5支入围团队的评估,LGAI Research、SK Telecom和Upstage进入第二阶段,NC AI与Naver Cloud未能通过。
韩国科学技术信息通信部15日表示,NC AI未达到基准测试门槛;Naver Cloud则因未满足项目所要求的自主性标准而被排除。
据介绍,Naver Cloud提出的自主基础模型之一“HyperCLOVA X Seed 32B Sync”,在训练过程中直接基于Alibaba“Qwen 2.5”视觉编码器的既有权重进行微调使用,因此不符合项目对“自主基础模型”的认定标准。
按照原计划,韩国科学技术信息通信部拟在初评阶段遴选4家企业进入下一轮。但由于最终有两家未能过关,政府决定尽快补选1支团队。该部门表示,此举旨在让更多韩国企业参与AI研发,并在项目推进过程中积累实际开发经验。
韩国科学技术信息通信部第二次官Ryu Je-myung当天表示,补选范围不仅包括本轮未通过的企业,也将向此前参与或未参与招标的企业开放。政府将尽可能缩短程序时间,尽快敲定新增团队,使其在相同条件下进入第二阶段评估。
以下为Ryu Je-myung在初评结果发布会后的问答要点。
问:补选团队的标准和时间安排如何?
答:由于初评后出现1个空缺名额,政府将尽快完成相关行政程序并启动补选。补选对象不仅包括本轮落选企业,也向参与预审的10个联盟及其他有能力组建联盟的企业开放。相关公告将尽快发布。
问:初评前围绕“自主性”曾有争议。Naver Cloud的问题是否在于使用了开源编码器?
答:项目指南已明确自主基础模型应满足的基本条件。即使使用开源模型,也应在清空原有权重后,基于自有数据重新训练。评审认为,Naver Cloud的问题不在于许可证,而在于直接沿用了既有权重。政府并不否定开源的使用,因为这本身已是全球行业趋势;但该项目强调的是企业从模型设计、训练到开发全过程自主参与并积累经验,因此需要从这一标准来判断。
问:第二阶段评估和补选将如何并行推进?
答:考虑到未通过初评的企业可以提出异议,政府已向相关企业说明,将设置10天异议期,待相关程序结束后完成初评。与此同时,已进入第二阶段的3家企业不会因补选而被迫等待。新增团队确定后,也将按照相同的项目周期和政府提供的GPU资源进入第二阶段。
问:项目最终只选出2家企业,在初评已有两家落选的情况下,为什么还要补选1家,是否会引发公平性争议?
答:该项目并不只是为了最终选出2家企业,更重要的是通过高强度竞争,推动更多韩国企业在较短时间内形成研发成果。政府希望尽可能多的企业能够实际使用GPU资源并参与技术开发。即便未能进入第二阶段,企业在参评过程中也能积累经验。因此,补选并非针对个别企业的特殊安排,而是基于项目整体目标作出的决定。
问:此前围绕标准已有争议,是否有必要在补选或第二阶段评估前进一步明确自主性认定标准?
答:包括全球头部企业在内,几乎没有公司完全不使用开源技术。当前生成式AI的发展也普遍建立在Transformer等开源基础之上,国际大型科技公司使用开源同样十分常见。政府并不将使用开源视为问题,但如果只是直接套用他人成果,而缺乏自身研发和训练过程,则不符合本项目鼓励本土企业积累能力的初衷。
问:除Naver Cloud外,Upstage与SK Telecom在初评前也曾被质疑存在自主性问题,评审如何看待?
答:就训练数据和模型权重而言,评审并未认定除Naver Cloud外的其他4家存在实质性问题。Upstage被指出在引用说明上存在不足,SK Telecom也有个别被提及之处,但均未达到偏离自主基础模型标准的程度。
问:Naver Cloud是否曾就编码器使用问题事先咨询主管部门?
答:经确认,并没有事先咨询。争议出现后,Naver Cloud提交了补充说明材料,但当时评估已经进行中,因此未被纳入此次评审结果,否则可能引发程序公正性问题。
问:初评采用基准测试、专家评估和用户评估,第二阶段将如何评估?
答:评估标准是在与参评企业沟通后形成,主要包括基准测试、专家评估和实际用户评估三部分。其中特别强调,专家评估关注客观性能、技术原创性以及后续发展的技术储备;用户评估则由一线AI使用者判断模型在实际业务场景中的有效性。政府指出,参数规模并不必然代表模型更优,体量较小的模型同样可能更适合产业现场的高效应用,因此实用性也是重要指标。
Ryu Je-myung还表示,第二阶段的评估框架不会出现大幅调整,但围绕是否从零开始训练等问题,政府将继续听取学界和产业界意见,并对细则进行完善。他同时强调,现有标准是在与参评企业形成共识的基础上制定,基准测试方案也采用了各方认可的方法。