AIを巡るセキュリティ競争で、脆弱性を見つける性能そのものだけでなく、どこまでトークンとコストを投じられるかが重要になりつつある。英AI Security Institute(AISI)がAnthropicのセキュリティ特化モデル「Claude Mythos Preview」を高く評価したことで、防御側の投資余力が新たな論点として浮上した。
Gigazineが20日付で報じたところによると、Anthropicが今月初めに公開したClaude Mythos Previewの評価結果を受け、攻撃者より多くのトークンを投入しなければ防御で優位に立てないとの見方が広がっている。
議論の発端は、Anthropicが4月7日、Claude Mythos Previewを一部の主要ソフトウェア企業に提供していると明らかにしたことにある。IT関係者のドリュー・ブルーニグは当初、このアピールに慎重な見方を示していた。セキュリティ分野は、AIが実際に脆弱性を発見したかどうかを事後検証しやすく、大量のトークン投入によって成功例を示しやすいとみていたためだ。
その後、AISIは同モデルについて「サイバー分野でも既存モデルを上回る性能を示した」と評価した。
ブルーニグが特に注目したのは、企業ネットワークへの攻撃プロセスを再現した「The Last Ones」テストだ。情報収集からネットワーク全体の掌握まで、32の課題で構成され、Claude Mythos PreviewとGPT-5.4など複数のモデルが比較対象となった。
試験条件は厳しかった。各試験は最大1億トークンまで処理できる設計で、この条件下で32課題をすべて完了したのはClaude Mythos Previewだけだった。同モデルは10回の試験のうち3回で全課題を完了。AISIによると、1億トークンに達した時点でも、成果の改善が鈍らないケースがあったという。
一方で、コスト負担の大きさも明らかになった。Anthropicは同モデルを、入力100万トークン当たり25ドル、出力100万トークン当たり125ドルで提供している。試験条件どおり最大1億トークンを使うテストを10回実施した場合、費用は1万2500ドル規模に達する。
こうした点を踏まえ、ブルーニグは「防御側は攻撃者に先んじて、より多くのトークンを投じて脆弱性を見つけなければならない」と主張した。
この見方は、ソフトウェア開発手法の変化も示唆する。ブルーニグは、AIエージェントがコードを書く環境では、開発業務が「開発」「レビュー」「安全性強化」の3段階に分かれる可能性が高いとみる。機能を素早く作る段階では人の判断やユーザーの反応がボトルネックになる一方、脆弱性の発見と除去では予算が主な制約になるという。
また、コード生成のコストは今後も低下する一方で、生成したコードを安全に保つ作業は別のコスト構造を持つようになるとも指摘した。
外部依存を減らし、必要な機能を大規模言語モデル(LLM)で直接実装すべきだとの意見も一部にある。ただ、ブルーニグは、ただちに依存を捨てるべきだと言っているわけではないと説明する。企業がオープンソースライブラリに十分なトークンを投じて監査すれば、個別に自社実装するより安全になる可能性もあるとの見方だ。
その半面、広く使われるオープンソースは攻撃者にとっても価値が高く、攻撃側の投資が増える可能性は不確定要素として残るとした。
開発者コミュニティでは、この見方に慎重な声も出ている。Hacker Newsでは、AISIの評価だけを根拠に「防御にはより多くのトークンが必要」と一般化するのは早計だとの指摘があった。形式手法など、ほかの防御策もあわせて検討すべきだという主張だ。
これに対し、防御側はソースコード全体と変更点を定期的に束ねて点検できるため、攻撃者より効率的に動けるとの意見もある。結果として、ソフトウェアの安全性がむしろ高まる可能性があるという見方だ。
今回の評価には限界もある。AISIは「テストには、AIモデルがセキュリティ警報を引き起こす行動を取っても不利益を受けない条件が含まれていた」と説明した。このため、能動型セキュリティツールやセキュリティ担当者が実際に稼働する、十分に防御されたシステムに対しても攻撃が通用するかどうかは断定できないとしている。
それでも今回の評価は、AIベースのセキュリティ競争が技術性能だけでなく、どこまでトークンとコストを負担できるかという問題へ移りつつあることを示した。防御の成否を左右する要素として、予算の重みが増している。