Anthropic正式面向全球推出新一代AI模型Claude Opus 4.8。
据NineToFiveMac等外媒当地时间28日报道,距离Anthropic于4月16日发布Claude Opus 4.7,仅过去约6周,公司便再次完成版本迭代。
从更新方向看,Claude Opus 4.8主要围绕性能和响应方式展开优化。Anthropic表示,新模型被定位为更适合协同工作的版本,在Claude Opus 4.7基础上进一步提升判断能力,能够在任务执行过程中更清晰地反馈进展与不确定性,并强化长时间自主工作的能力。
Anthropic称,早期测试显示,Claude Opus 4.8在执行任务时会更频繁地标注不确定信息,同时减少无依据断言。公司表示,新模型整体可靠性进一步提升,事实依据不足的主张明显减少,判断表现也更稳健。
编码能力是此次升级重点之一。Anthropic表示,Claude Opus 4.8对自身生成代码缺陷的漏检率,已降至Claude Opus 4.7的四分之一。这意味着,在代码审查和反复修改较为频繁的开发场景中,模型识别错误的能力有所增强。
在对齐性评估方面,Anthropic也披露了新的变化。公司称,Claude Opus 4.8在“更符合社会期望的特性”相关指标上刷新纪录,非对齐行为占比较Claude Opus 4.7明显下降,在提升任务执行能力的同时,也增强了可控性和安全性。
从基准测试成绩来看,Claude Opus 4.8在多项指标上均较上一版本有所提升:代理式编程得分由64.3%升至69.2%;基于工具使用的多领域推理得分由54.7%升至57.9%;代理式计算机使用得分由82.8%升至83.4%;知识工作得分由1753升至1890;代理式金融分析得分则由51.5%升至53.9%。
定价方面,Anthropic维持Claude Opus 4.7与Claude Opus 4.8相同的价格体系。标准价格为每百万输入token 5美元、每百万输出token 25美元。对于Claude Opus 4.8的高速模式,Anthropic调整了性能与成本方案:该模式运行速度提升至原来的2.5倍,价格为每百万输入token 10美元、每百万输出token 50美元。公司表示,与此前方案相比,高速模式成本已降至约三分之一。
开发者工具Claude Code也同步更新。Anthropic表示,Claude Opus 4.8在Claude Code中默认以更高的计算强度运行。在编码任务中,这一设置能够在token消耗与Claude Opus 4.7大致相近的情况下,提供更高性能。公司还计划上调“额外性能”和“最大性能”设置下的Claude Code使用额度上限。
面向大规模任务的新功能也已上线。Anthropic表示,以研究预览形式推出的动态工作流,可支持Claude Code处理更大规模的任务。在Claude Cowork和claude.ai中,模型选择器旁还新增控制选项,允许用户调节响应时投入的计算强度。
消息API也进行了调整。更新后,开发者可在消息数组中直接加入system项,无需经过新的用户轮次,即可在任务执行过程中修改指令,同时保留提示缓存和路由功能。
Anthropic还披露了后续计划。公司正在准备推出一款性能相近、成本更低的模型;在基于Project Glasswing引入更强网络安全防护后,还计划在未来几周内更大范围开放“Mythos”级模型。
在与OpenAI竞争持续升温的背景下,此次更新被视为Anthropic围绕实际使用体验推进的一次迭代。Claude Opus 4.8重点强化了编码错误检测、长时间自主工作能力以及更坦诚的响应方式,意在进一步提升对开发者和企业客户的吸引力。