有关OpenAI正在小范围测试GPT-5.6的讨论,近日在社区持续升温。多名ChatGPT用户表示,在选择GPT-5.5 Pro后,模型实际表现与以往明显不同:一方面输出质量有所提升,另一方面响应时间也显著变长。
据区块链媒体Decrypt报道,X平台上已有不少用户反馈,部分付费订阅账号在ChatGPT中选择GPT-5.5 Pro后,实际运行效果更像是切换到了另一款模型,而非现有版本。
从用户描述来看,最明显的变化主要集中在两点:其一,模型在网页设计、3D游戏生成等任务上的表现优于以往;其二,完成任务所需时间明显增加。部分用户称,原本GPT-5.5 Pro约10分钟可以完成的任务,如今被拉长至1小时以上,另有一些案例耗时在20至40分钟之间。
开发者Anshul Chhimala发布了一段对比视频,展示用单条提示词生成落地页的结果,并表示自己可能是少数获得早期GPT-5.6 Pro访问权限的用户之一。使用Codex的Dobroslav Radosavljevic也称,当前运行模型与既有GPT-5.5相比,“使用体验完全不同”。
类似评价也出现在3D游戏生成测试中。Connor Dart表示,他通过单条提示词生成了一款包含物理运算和相机控制的浏览器游戏,整个生成过程耗时60分钟15秒。他评价称,虽然结果“并不完美”,但以单条提示词完成游戏开发测试来看,整体表现“令人印象深刻”。AI行业影响者Chetas Lua也表示,在机器人仿真和3D测试中观察到疑似新模型的输出,认为其“理解能力明显提升”,但单次任务耗时又回到了20至40分钟区间。
不过,这一疑似新模型并非在所有对比中都占优。自称专注AI基准测试的Chris表示,他以“制作宇宙飞船”为提示词分别测试两款模型后发现,疑似GPT-5.6 Pro的模型耗时87分钟,而GPT-5.5 Extra High耗时为34分42秒。他认为,与GPT-5.5相比,GPT-5.6可能只是渐进式改进,甚至仅属于小幅优化;在部分基准测试中或许能够逼近竞品,但未必足以形成明显领先。
与此同时,社区也流出一些疑似泄露信息。一个被认为与“爆料者Pankaj Kumar”相关的账号称,该模型的知识截止时间已延后至2025年12月;还有测试者表示,名为“Juice Value”的推理设置已从768上调至960。另有说法称,在SVG和3D设计生成等特定任务上,其能力可能超过Anthropic的Fable5。
截至目前,OpenAI尚未对相关传闻作出正式回应。The Information报道称,OpenAI首席科学家Jakub Pachocki曾在内部提到,下一代模型相较GPT-5.5属于“有意义的改进”。不过,这仍不足以证明ChatGPT正在进行相关A/B测试,也无法确认其发布时间和具体规格。
外界猜测持续升温,另一个原因在于近期竞争格局的变化。报道称,中国开源模型GLM-5.2在评估长时开放式工程任务的FrontierSWE测试中,把与Claude Opus 4.8的差距缩小至1分;在同一测试中,GLM-5.2据称还领先GPT-5.5。与此同时,Anthropic主力模型Mithos5和Fable5在美国管控指引出台后已从市场下架。在高端模型市场出现空缺的背景下,GLM-5.2与尚未公开的GPT-5.6,被认为可能争夺这一位置。
市场也开始讨论潜在的价格竞争。消息称,OpenAI正考虑下调面向开发者和企业客户的Token价格,Anthropic也可能跟进调整。由于两家公司均处于筹备IPO阶段,相关动态进一步推高了市场关注度。
至于GPT-5.6是否会正式发布,目前仍存较大不确定性。不过在X平台上,关于“部分账号在选择GPT-5.5 Pro后,已被纳入新模型暗测”的说法仍在持续发酵,甚至有人将公开时间指向本月25日。预测市场Polymarket上,围绕6月22日至28日期间GPT-5.6发布可能性的押注也有所增加,相关合约概率本周一度升至89%。
眼下争议的核心,已不只是新模型性能是否提升,更在于用户先于官方信息,在真实服务中感知到模型可能已被替换。OpenAI将如何在响应速度与输出质量之间取舍,以及能否尽快填补高端模型市场的空缺,正成为外界关注的焦点。