Anthropic与OpenAI的AI编程模型之争。图片来源:Nanobanana

OpenAI发布最新AI模型GPT-5.3 Codex,市场关注其能否在AI编程赛道对Anthropic形成更直接的竞争压力。

据OpenAI介绍,GPT-5.3 Codex融合了GPT-5.2与GPT-5.2 Codex的能力,不仅能够完成代码编写和代码审查,还可处理开发者在实际工作流中涉及的多类任务。

其中,GPT-5.3 Codex主打“代理式编码(agentic coding)”。不同于仅根据指令生成代码的通用模型,Codex可以像开发者一样自主判断并推进任务,覆盖代码编写、运行测试、修复错误、更新Jira工单、撰写技术文档以及管理部署流程等环节。

OpenAI还强调,该模型具备参与自身开发流程的能力。OpenAI表示,早期版本模型曾自行调试训练流程,并编写脚本根据流量变化扩展GPU集群,从而大幅提升开发效率。

性能方面,GPT-5.3 Codex在多语言软件工程评测SWE-bench Pro中的得分为56.8%,在衡量终端命令执行能力的Terminal-bench 2.0中达到77.3%。OpenAI称,其在SWE-bench Pro上的表现较此前GPT-5.2 Codex的64.0%提升了13.3个百分点。

推理效率也有所提升。OpenAI表示,GPT-5.3 Codex完成相同任务时可使用更少token,推理速度提高25%,同时有助于降低成本和时延。

随着OpenAI持续加码AI编程领域,其与Anthropic之间的竞争也在进一步升温。

Anthropic去年推出编程工具Claude Code,并持续强化其在AI编程市场的存在感。Claude Code按年化口径计算的营收已超过10亿美元,应用场景也不再局限于代码生成,还涵盖数据迁移、Bug修复和原型生成等领域。一些非开发者也已将其用于实际开发场景。报道称,甚至有Google工程师在使用Claude Code。

与此同时,Anthropic近期还推出支持100 token上下文窗口的AI模型Claude Opus 4.6。该模型既可用于面向开发者的Claude Code,也可用于面向非开发者的自动化工具Claude Cowork。

Anthropic表示,Claude Opus 4.6在任务规划上更加谨慎,在大型代码库中的运行表现也更稳定,并可通过代码审查和调试发现自身错误,以此凸显其编程能力的提升。

另一项受到关注的功能是“Agent Team”。在这一模式下,多个AI代理可分别负责前端、API和迁移等任务,并行推进协作。Anthropic产品负责人Scott White表示,这一机制能够像人类团队一样进行分工协作,从而提升整体效率。不过,该功能目前仍仅以Claude Code研究预览形式开放。

关键词

#OpenAI #GPT-5.3 Codex #代理式编码 #AI编程 #SWE-bench Pro #Terminal-bench 2.0 #Anthropic #Claude Code #Claude Opus 4.6 #Agent Team
版权所有 © DigitalToday。未经授权禁止转载或传播。