Kakao宣布,公司自研的Agentic AI评测基准相关论文已被ICLR 2026录用。
Kakao于3日表示,上述论文入选ICLR 2026。公司称,ICLR被全球大型科技企业视为AI领域最具权威性的学术会议之一。今年会议共收到约1.9万篇投稿,录用率约为28%。
针对大语言模型正加速向Agentic AI演进的趋势,Kakao开发了这一评测基准。所谓Agentic AI,是指不再局限于问答生成,而是能够围绕用户需求进行任务规划、协调执行并调用工具完成任务的技术形态。
该研究重点评估模型在真实服务场景下处理多步骤任务和跨领域请求的能力。Kakao表示,现有基准大多停留在单项能力测试层面,难以验证模型对复杂请求的理解能力,以及制定任务计划和调用工具的能力。基于这一问题,公司提出了将任务规划与工具执行分开评估的框架,以提升评测颗粒度。
这套评测基准覆盖旅行、购物、金融、日程等17个服务领域,并包含100多种虚拟工具。同时,基准还引入了用户中途修改需求、追加提问等真实对话流程,以提升实际应用价值。
评测数据支持韩语和英语。Kakao表示,全部数据均经过人工校验,其中韩语数据还结合了文化特征和语境进行处理,以确保准确性和可靠性。为推动AI生态发展,相关论文和数据已在GitHub开源。
Kakao方面表示,这一“编排基准”是评估Agentic AI能否在真实服务环境中稳定运行的重要工具。在Agentic AI加速迈向自主决策与执行的背景下,该研究具有现实意义。未来,公司还将持续推进代理间协作和任务编排能力相关研究,并继续升级与Kakao Agentic AI发展方向一致的技术能力。