OpenAI发布两款小型模型GPT-5.4 mini和GPT-5.4 nano,瞄准AI代理系统中的任务分工与并行处理场景。
两款模型主要适用于代码库检索、文件审阅等任务,重点覆盖那些对响应速度和成本更为敏感的并行子任务场景。
据TheNewsstack报道,GPT-5.4 mini在部分测试中的表现与GPT-5.4完整版差距不大。OpenAI表示,在编程和计算机使用相关基准中,mini的表现已接近完整版,运行速度则为后者的两倍以上。nano则是面向大规模任务推出的精简版本,适用于分类、数据抽取、排序以及轻量编程辅助等场景。
目前,GPT-5.4 mini已接入API、Codex和ChatGPT,支持40万Token上下文窗口,以及文本和图像输入。GPT-5.4 nano仅通过API提供。
在衡量真实软件工程任务能力的SWE-bench Pro测试中,mini得分为54.38%,约比GPT-5.4完整版低3个百分点。在评估计算机使用能力的OSWorld-Verified测试中,mini得分72.13%,接近GPT-5.4完整版75.03%的水平。整体来看,nano性能低于mini,但在编程和工具调用任务上已超过此前的GPT-5 mini。
OpenAI还强调了该模型在Codex中的协作模式:由GPT-5.4负责规划、调度和最终审阅,由mini驱动的子代理并行执行代码库检索、大型文件审阅及相关文档处理等高强度任务。
OpenAI表示,在这类应用环境中,最合适的模型未必是参数规模最大的版本,更关键的是能否快速响应、稳定调用工具,并在复杂专业任务中保持可靠表现。