Anthropicは、初の公開「ミトス級」モデル「Claude Fable 5」を公開し、サイバーセキュリティ、生物学、化学に関する応答を厳しく制限する方針を打ち出した。敏感な領域では旧モデル「Claude Opus 4.8」に自動で切り替え、高い能力を持つ別モデルは認定済みの防御担当者に限定して提供する。
米Ars Technicaが9日(現地時間)に報じた。Anthropicは悪用リスクを抑えるため、一般向けの公開モデルと、利用対象を絞った制限付きモデルを分けて運用する。
Anthropicによると、Fable 5は総合性能で従来の最上位モデルだったOpus系を上回る。一方、一般公開版では敏感なテーマの質問が入力された場合、リクエストをClaude Opus 4.8へ切り替える。切り替え時には、その事実をユーザーにも通知する。
同じ基盤モデルを用いる「Mythos 5」は、従来の「Project Glasswing」を通じて信頼できると判断した一部のサイバー防御担当者にのみ提供する。
Anthropicは、この安全措置を「必要とされる水準以上に厳格に」設定したと説明した。そのため、一般ユーザーにとって無害な依頼でも一部は拒否される可能性があるとしている。
一方で、テストでは誤検知率は全セッションの5%未満にとどまったという。同社は、他の手段では得にくい深刻な危害につながる情報が悪意ある行為者に渡るのを防ぐうえで必要な措置だと位置付けている。
中核となるのは、トピック分類器と脱獄(ジェイルブレイク)試行の検知システムだ。Fable 5は、禁止されたプロンプトのテーマを幅広く検知し、回避を狙う入力も遮断できるよう設計したとしている。
Anthropicは、バグバウンティプログラムを含む1000時間超のレッドチームテストの結果、外部研究チームはFable 5に対する汎用的なジェイルブレイク手法を見つけられなかったと明らかにした。自動化されたジェイルブレイク試行への耐性も、従来のClaude Opusより大きく向上したとしている。
同社が特に警戒しているのは「エージェント型ハッキング」だ。複数段階にわたるサイバー攻撃を、前世代モデルよりはるかに容易に実行できる可能性があるとみている。
ただ、英国AI Security Instituteの最近の評価では、「Mythos Preview」がハッキング問題セットでOpenAIのGPT-5.5と同程度の性能を記録した。Anthropicは、これを特定モデルだけが突出した成果とみなすのは難しいとしている。
サイバーセキュリティ分野の性能は大きく伸びた。Mythos 5は、脆弱なコードの悪用能力を測るExploitBenchで78%を記録し、Opus 4.8の40%、Mythos Previewの69%を上回った。こうした性能向上が、公開範囲を絞る背景にあるという。
生物学・化学分野でも制限を強化した。従来は生物兵器関連の質問だけを遮断していたが、Fable 5では分類器の適用範囲を生物学・化学全般に広げた。
Anthropicは、資金と人員を持つ悪意ある行為者であれば、一見無害な質問の積み重ねだけでも、高リスクの生物学研究を従来モデルよりはるかに効果的に進められる可能性があると判断したという。サイバーセキュリティの専門家や生命科学の研究者に有益な情報であっても、悪用されれば危険性が高まると説明している。
これに伴い同社は、危険な能力を持つモデルへのアクセス権を自社で直接管理する仕組みを整備した。Project Glasswingは米政府と連携し、対象者を段階的に拡大する予定だ。
加えて、生命科学機関向けの新たな信頼アクセスプログラムも導入する。このプログラムでは生物学・化学関連の制限を一部緩和する一方、サイバーセキュリティ分野の制限は維持する方針だ。
料金と提供条件も公表した。APIとエンタープライズ向け料金は、入力が100万トークン当たり10ドル、出力が100万トークン当たり50ドル。日本円換算ではそれぞれ約1500円、約7500円となる。
既存の購読者は22日までFable 5を利用できる。それ以降は、別途利用クレジットの購入が必要になる。