GitHub公開ツールでAIの安全機能を解除　Meta・Googleのオープンウェイトモデルで確認

オープンウェイトモデルの開放性と安全性の両立の難しさが改めて浮き彫りになった（写真=Shutterstock）

MetaとGoogleが公開した一部のオープンウェイトAIモデルで、GitHub上で公開されているツールだけを使い、安全機能を短時間で無効化できることが確認された。解除後のモデルは、本来拒否すべき危険な質問にも回答したという。

オンラインメディアのGIGAZINEが27日付で報じた。それによると、対象となったのはMetaの「Llama 3.3」とGoogleの「Gemma 3」。安全機能を取り除いた後、危険性の高い質問にも応答したとしている。

焦点となっているのは、AIチャットボットに標準的に組み込まれる安全機能だ。悪意のあるコードの作成や生物兵器の製造、児童性的虐待コンテンツに関する要求など、危険・違法な指示を遮断する役割を担う。

今回の検証では、GitHubで公開されている「Heretic」を使い、特別な機材を使わずにLlama 3.3の安全機能を10分以内に解除できたとされる。

無効化には「abliteration」と呼ばれる手法が用いられた。AIモデルが危険な要求を拒否する際に関わる内部表現「refusal direction」を特定し、それを弱めることで拒否反応を薄める方法だ。

オープンウェイトモデルは、クローズド型AIと異なり、外部の利用者がモデルの重みを直接ダウンロードして改変できる。このため、いったん安全機能が外れると、改変済みの派生モデルが迅速に拡散しやすい構造にある。

Hereticの開発者であるフィリプ・エマヌエル・バイトマン氏は、ツール公開後、安全機能を解除したモデルを作成する用途で3500件以上使われたと明らかにした。こうしたモデルの累計ダウンロード数は1300万回を超えたという。

同氏は別の事例として、Googleの「Gemma 4」についても、公開から約90分で安全機能を解除できたと主張している。

Googleは、これはオープンモデル全般に関わる「既知の技術的課題」との見解を示した。そのうえで、自社のオープンモデルは公開前に厳格な社内安全性評価を経ていると説明した。Metaは現時点で公式見解を示していない。

今回の事例を受け、オープンウェイトAIモデルが抱える構造的な限界が改めて浮き彫りになったとの見方が出ている。ChatGPTやClaudeのように内部の重みへのアクセスが制限されたクローズド型モデルでは同様の改変は容易ではない。一方、LlamaやGemmaのように重みを公開したモデルでは、配布後に企業側が統制を維持しにくいからだ。

共同検証に参加したAI Safety Instituteは、「AIの性能が高まるほど、危険用途への転用はもはやSFではない」と警鐘を鳴らした。社会全体でこうしたリスクへの備えが必要だと訴えている。

業界では、今回の結果は単なる技術デモにとどまらず、オープンウェイトAIエコシステムの中核的な論点を改めて浮上させたとの受け止めが出ている。企業が公開前に安全機能を組み込んでも、配布後に第三者がそれを解除し、再配布することまで防ぐのは難しいためだ。

このため、オープンウェイトAIを巡っては、モデルの公開範囲や公開後の対応体制、派生モデルの流通管理をどう設計するかを巡る議論が広がる見通しだ。AIの開放性と安全性のバランスをどこまで許容するかが、今後の政策・産業の重要課題になりそうだ。

Jinju Hong hongjj@d-today.co.kr

キーワード