Anthropic发布Claude Fable 5，收紧网络安全及生物化学相关提问限制

Anthropic发布对外公开的Claude Fable 5，并加强对网络安全以及生物、化学相关提问的限制。图片来源：Shutterstock

Anthropic发布了首个对外公开的“神话级”模型Claude Fable 5，并同步收紧网络安全、生物和化学相关提问的安全限制。

据科技媒体Ars Technica当地时间9日报道，为防止恶意用户滥用模型的高级能力，Anthropic决定将公开版与受限版分开提供。其中，Claude Fable 5面向普通用户开放，而基于同一底层架构的Mythos 5仅向特定对象开放。

Anthropic表示，Fable 5的整体性能已超过此前的旗舰Opus系列。不过，公开版在识别到敏感主题提问时，会自动将请求切换至上一代模型Claude Opus 4.8，并明确提示用户已发生切换。相比之下，能力风险更高的Mythos 5目前仅通过“Project Glasswing”向经认定的可信网络防御人员提供。

对于这套安全策略，Anthropic称其护栏设置“比理想状态更严格”。公司也承认，从普通用户角度看，部分无害请求可能会被误拦截。测试结果显示，这类误判在总对话中的占比不足5%。Anthropic表示，此举是为了避免向恶意行为者提供“通过其他方式难以获得”的高危能力。

从技术机制看，Fable 5主要依靠主题分类器和越狱检测机制识别风险内容，既可更广泛地识别受限提示主题，也能拦截试图规避限制的输入。Anthropic称，在累计超过1000小时、涵盖漏洞赏金计划在内的红队测试中，外部研究团队未能针对Fable 5找到通用型越狱方法；同时，该模型对自动化越狱攻击的防御能力也较现有Claude Opus明显提升。

Anthropic尤其关注“代理型黑客攻击”风险。公司认为，与上一代相比，新模型执行多步骤网络攻击任务的能力更强。不过，英国AI安全研究所近期的评估显示，Mythos Preview在黑客测试题集上的表现与OpenAI GPT-5.5接近。Anthropic表示，难以据此认定某一模型已经形成压倒性领先。

在网络安全能力方面，Mythos 5的提升尤为明显。该模型在评估漏洞利用能力的ExploitBench测试中取得78%的成绩，高于Opus 4.8的40%和Mythos Preview的69%。Anthropic指出，能力提升本身也正是公司进一步收紧公开范围的重要原因。

与此同时，Anthropic也扩大了生物和化学领域的限制范围。此前，公司主要拦截与生物武器相关的提问；从Fable 5开始，分类器的覆盖范围已扩展至整个生物和化学领域。Anthropic判断，具备资金和人力的恶意行为者，可能仅凭表面上看似无害的问题，就能更高效地推进高风险生物研究。公司认为，即便相关信息对网络安全专家或生命科学研究人员具有实际价值，一旦落入恶意行为者手中，风险仍会被放大。

在此背景下，Anthropic建立了面向高风险能力模型的直接访问管理机制。Project Glasswing将与美国政府合作，逐步扩大覆盖范围。与此同时，公司还计划推出面向生命科学机构的“可信访问”新项目，在适度放宽生物和化学相关限制的同时，继续保留网络安全方面的限制。

Anthropic还同步公布了定价和访问政策：API和企业版价格为每100万 token 输入10美元、每100万 token 输出50美元。现有订阅用户可使用Fable 5至22日，之后需单独购买使用额度。

Seung-a Yoo ysah@d-today.co.kr

关键词