Cloudflareは、Anthropicが限定提供するセキュリティ向けAIモデル「Mythos」の実運用結果を公表した。50超の社内リポジトリで検証したところ、複数の脆弱性をつないで攻撃チェーンを組み立てる能力や、悪用可能性を立証する能力で高い性能を示した。一方で、防御目的の分析依頼を拒否するケースも確認されたという。
Cloudflareは、Anthropicが一部の企業・機関にMythosを限定提供するプログラム「Glasswing」の参加企業の1社。今回、社内環境で得られた知見と課題を自社サイトで明らかにした。
Anthropicは、Mythosがソフトウェアの脆弱性を高い精度で発見し、サイバー攻撃に悪用される恐れがあるとして、Glasswingを通じて提供先を絞っている。
CloudflareはMythosについて、従来の汎用フロンティアモデルに比べて「単なる性能向上ではなく、質的に異なるツールだ」と評価した。
同社が特に重視したのは2つの能力だ。1つは、攻撃チェーンを組み立てる力である。
Cloudflareによると、実際の攻撃では単一のバグだけでなく、複数の小さな欠陥を組み合わせてエクスプロイトを成立させるケースが一般的だ。Mythosは、こうした要素を組み合わせ、実際に攻撃が成立することを示すコードまで生成できたという。
その振る舞いも、単純な自動スキャナーというより、熟練したセキュリティ研究者の調査に近かったとしている。
もう1つは、悪用可能性の立証だ。Cloudflareは、バグを見つけることと、そのバグが実際に悪用可能だと示すことは別の作業だと説明する。
Mythosはコードからバグを検出すると、実際に悪用できるかを検証するコードを自ら生成して実行する。悪用が確認できれば実際の脅威と判断し、確認できなければ手法を変えて再試行したという。
Cloudflareによれば、他のフロンティアモデルでも同じ環境で相当数のバグは見つけられた。ただ、多くは個別のバグを特定して説明した段階で処理が止まり、その先の悪用立証には進まなかった。
Mythosの違いは、単体では深刻度が低いバグでも連鎖させ、重大なエクスプロイトへ発展させられる点にあるとCloudflareは強調した。
一方でCloudflareは、Mythosが防御目的の脆弱性分析を拒否する場合があったとも指摘した。同じ作業でも、依頼の表現を変えるだけで結果が正反対になることがあったという。
さらに同社は、AIによって脆弱性の発見が急速に高速化するなか、パッチ適用のスピードだけを追う運用にはリスクがあると警鐘を鳴らした。多くのセキュリティチームは脆弱性公開後2時間以内の適用を目標にしているが、回帰テストを省けば、元のバグ以上に深刻な問題を招く恐れがあるとする。
そのうえでCloudflareは、重要なのは単なる修正の速さではなく、脆弱性があっても攻撃者に悪用されにくいアーキテクチャを整えることだと訴えた。