随着8月初第二阶段评估临近,参与韩国“独立AI基础模型项目”(以下简称“独基模”)的4家企业,正集中强化Agentic AI相关能力。
多家开发方将研发重点转向Agentic AI,背后反映的是全球大模型技术路线的变化。随着大模型应用从简单问答扩展到实际工作流执行,外部搜索、数据库调用、代码执行等工具调用与任务编排能力,正成为模型竞争力的重要指标。自2024年底以来,OpenAI、Anthropic、Google等头部厂商在发布新模型时,也开始着重强调代理能力及工具调用相关基准表现。
在这一趋势下,参与独基模项目的韩国本土厂商也同步调整研发方向。
LG AI Research表示,在“K-EXAONE”第二阶段评估版本中,研发重点已从第一阶段的基础语言能力,转向代理任务执行和任务编排能力提升。该公司称,这一方向主要服务于集团及客户的AX项目落地;一旦企业引入编排器并实际体验到生产效率提升,退出相关应用的可能性就会明显降低。
与此同时,LG AI Research也在推进将EXAONE导入集团内关联企业及合作伙伴实际业务场景的微调工作。该公司表示,约三年前曾尝试过类似路径,但当时在数据接收、训练数据质量审查、评估和训练等环节分别耗费数月,最终在一年后以失败告终。如今,公司称其在研发速度和质量两方面均已有所提升。
LG AI Research相关人士表示,当前模型已具备部分代理任务处理能力,但在开发收尾阶段仍存在速度短板,因此多个研究团队正集中投入补强,并在约两周时间里明显提升了任务编排能力。
Upstage近日发布“Solar Open2 Preview”,并重点展示其代理能力相关进展及基准成绩。该公司表示,模型在Tau2基准上的代理能力得分为98%,高于DeepSeek V4 Pro的96.2%,接近Anthropic Fable5的98.5%。Upstage补充称,上述数据由AI测评机构Artificial Analysis独立测得。
Upstage CEO Kim Seonghun表示,第一代模型可用于媒体校对、问答和搜索,但在代理应用场景下尚无法完成工具调用;而6月发布的新模型,已具备支撑代理应用的能力。他同时强调,AI已从工具或服务上升为国家战略资产,任何国家都可能在需要时切断相关能力供应,因此必须尽可能提升自研技术水平。
SK Telecom也在为第二阶段评估开发新模型“A.X K2”,研发重点同样放在代理能力上。该公司表示,从上一版本A.X K1开始,团队就已聚焦编码与代理能力;K2将具备可适用于多个领域和场景的代理性能,同时还将首尔大学Hwang Seungwon教授团队在相关方向上的研究成果纳入模型。
SK Telecom相关人士表示,公司正围绕第二阶段评估重新打磨模型,目标是使其具备可在多种形态下落地应用的代理能力。
Motif Technologies也将第二阶段评估所需的300B级大模型研发重点放在代理能力提升上。该公司强调,其差异化在于不采用海外开源架构,而是坚持自主设计模型,并希望借此在代理能力上证明自身竞争力。
Motif Technologies CEO Lim Jeonghwan表示,包括Claude在内,全球大模型的研发目标正转向“代理调用工具的能力”。独基模项目同样在对齐这一方向,Motif也据此调整了研发目标。
韩国科学技术信息通信部将于8月初对上述4家公司开展独基模第二阶段评估。其中,LG AI Research、SK Telecom和Upstage的模型提交截止时间为6月底,Motif Technologies则截至7月底。