Anthropic发布对外公开的Claude Fable 5,并加强对网络安全以及生物、化学相关提问的限制。图片来源:Shutterstock

Anthropic发布了首个对外公开的“神话级”模型Claude Fable 5,并同步收紧网络安全、生物和化学相关提问的安全限制。

据科技媒体Ars Technica当地时间9日报道,为防止恶意用户滥用模型的高级能力,Anthropic决定将公开版与受限版分开提供。其中,Claude Fable 5面向普通用户开放,而基于同一底层架构的Mythos 5仅向特定对象开放。

Anthropic表示,Fable 5的整体性能已超过此前的旗舰Opus系列。不过,公开版在识别到敏感主题提问时,会自动将请求切换至上一代模型Claude Opus 4.8,并明确提示用户已发生切换。相比之下,能力风险更高的Mythos 5目前仅通过“Project Glasswing”向经认定的可信网络防御人员提供。

对于这套安全策略,Anthropic称其护栏设置“比理想状态更严格”。公司也承认,从普通用户角度看,部分无害请求可能会被误拦截。测试结果显示,这类误判在总对话中的占比不足5%。Anthropic表示,此举是为了避免向恶意行为者提供“通过其他方式难以获得”的高危能力。

从技术机制看,Fable 5主要依靠主题分类器和越狱检测机制识别风险内容,既可更广泛地识别受限提示主题,也能拦截试图规避限制的输入。Anthropic称,在累计超过1000小时、涵盖漏洞赏金计划在内的红队测试中,外部研究团队未能针对Fable 5找到通用型越狱方法;同时,该模型对自动化越狱攻击的防御能力也较现有Claude Opus明显提升。

Anthropic尤其关注“代理型黑客攻击”风险。公司认为,与上一代相比,新模型执行多步骤网络攻击任务的能力更强。不过,英国AI安全研究所近期的评估显示,Mythos Preview在黑客测试题集上的表现与OpenAI GPT-5.5接近。Anthropic表示,难以据此认定某一模型已经形成压倒性领先。

在网络安全能力方面,Mythos 5的提升尤为明显。该模型在评估漏洞利用能力的ExploitBench测试中取得78%的成绩,高于Opus 4.8的40%和Mythos Preview的69%。Anthropic指出,能力提升本身也正是公司进一步收紧公开范围的重要原因。

与此同时,Anthropic也扩大了生物和化学领域的限制范围。此前,公司主要拦截与生物武器相关的提问;从Fable 5开始,分类器的覆盖范围已扩展至整个生物和化学领域。Anthropic判断,具备资金和人力的恶意行为者,可能仅凭表面上看似无害的问题,就能更高效地推进高风险生物研究。公司认为,即便相关信息对网络安全专家或生命科学研究人员具有实际价值,一旦落入恶意行为者手中,风险仍会被放大。

在此背景下,Anthropic建立了面向高风险能力模型的直接访问管理机制。Project Glasswing将与美国政府合作,逐步扩大覆盖范围。与此同时,公司还计划推出面向生命科学机构的“可信访问”新项目,在适度放宽生物和化学相关限制的同时,继续保留网络安全方面的限制。

Anthropic还同步公布了定价和访问政策:API和企业版价格为每100万 token 输入10美元、每100万 token 输出50美元。现有订阅用户可使用Fable 5至22日,之后需单独购买使用额度。

关键词

#Anthropic #Claude Fable 5 #Mythos 5 #AI安全 #越狱防护 #网络安全 #生物化学限制 #红队测试 #API定价
版权所有 © DigitalToday。未经授权禁止转载或传播。