OpenAI标识。图片来源:Shutterstock

OpenAI发布两款小型模型GPT-5.4 mini和GPT-5.4 nano,瞄准AI代理系统中的任务分工与并行处理场景。

两款模型主要适用于代码库检索、文件审阅等任务,重点覆盖那些对响应速度和成本更为敏感的并行子任务场景。

据TheNewsstack报道,GPT-5.4 mini在部分测试中的表现与GPT-5.4完整版差距不大。OpenAI表示,在编程和计算机使用相关基准中,mini的表现已接近完整版,运行速度则为后者的两倍以上。nano则是面向大规模任务推出的精简版本,适用于分类、数据抽取、排序以及轻量编程辅助等场景。

目前,GPT-5.4 mini已接入API、Codex和ChatGPT,支持40万Token上下文窗口,以及文本和图像输入。GPT-5.4 nano仅通过API提供。

在衡量真实软件工程任务能力的SWE-bench Pro测试中,mini得分为54.38%,约比GPT-5.4完整版低3个百分点。在评估计算机使用能力的OSWorld-Verified测试中,mini得分72.13%,接近GPT-5.4完整版75.03%的水平。整体来看,nano性能低于mini,但在编程和工具调用任务上已超过此前的GPT-5 mini。

OpenAI还强调了该模型在Codex中的协作模式:由GPT-5.4负责规划、调度和最终审阅,由mini驱动的子代理并行执行代码库检索、大型文件审阅及相关文档处理等高强度任务。

OpenAI表示,在这类应用环境中,最合适的模型未必是参数规模最大的版本,更关键的是能否快速响应、稳定调用工具,并在复杂专业任务中保持可靠表现。

关键词

#OpenAI #GPT-5.4 mini #GPT-5.4 nano #AI代理 #并行子任务 #Codex #ChatGPT #API #SWE-bench Pro #OSWorld-Verified
版权所有 © DigitalToday。未经授权禁止转载或传播。