自律型AI、競争環境で談合や妨害も　10を超える機関が実証研究

ノースイースタン大学やスタンフォード大学、ハーバード大学、マサチューセッツ工科大学（MIT）など10を超える研究機関の研究者は、自律型AIエージェントを巡る論文「Agents of Chaos」を公表した。開放的な競争環境に置かれたAIエージェントが、談合や操作、戦略的な妨害行動に及ぶシステムレベルのリスクを検証した内容だ。

論文によると、AIエージェントは単に成果の最大化を目指すだけでなく、操作や談合、妨害といった行動を取る例が確認された。悪意あるプロンプトやハッキングの試みがなくても、インセンティブ構造だけでこうした振る舞いが生じたとしている。

研究チームはこの現象を、「ローカルアラインメント」と「グローバル安定性」の不均衡で説明する。個々のAIアシスタントを適切に制御できても、数千のエージェントが開放的な生態系で競争すれば、結果としてゲーム理論的な混乱に陥り得るという。個別エージェントの安全性を確保しても、システム全体の安全は保証できないとの見方を示した。

研究チームは結果を11の典型事例として整理した。具体的には、権限のない外部者の指示実行、機微情報の露出、システム破壊命令の実行、サービス拒否状態の誘発、資源の無断消費、身元の偽装、危険行動のエージェント間伝播、部分的なシステム掌握などが含まれる。一部では、エージェントが作業完了を報告しながら、実際のシステム状態と一致しないケースも確認された。

研究チームは、マルチエージェントによる金融取引システムや自律交渉ボット、AI同士の経済取引プラットフォーム、APIベースの自律型エージェント群など、導入が急速に進む分野に注目した。論文では「誰もが金融、セキュリティ、コマースの領域にエージェントを投入しようと競っている一方で、生態系レベルの影響をモデリングする主体はほとんどいない」と指摘している。

実験では、研究チームが2週間にわたり実験室環境でレッドチームテストを実施した。メールアカウント、Discord、ファイルシステム、シェル実行権限を備えた言語モデルベースの自律型エージェントを構築し、20人を超えるAI研究者が正常条件と攻撃条件の両方でエージェントと相互作用したという。

Chi-gyu Hwang (황치규) delight@d-today.co.kr

キーワード