Google DeepMindが、AIエージェントを単なるソフトウェアツールではなく、内部脅威になり得る存在として管理する方針を打ち出した。Axiosが18日(現地時間)、報じた。
同社は「AI統制ロードマップ」を公開し、エージェントの能力向上に応じて、監視と遮断の水準を段階的に引き上げる考えを示した。
この枠組みでは、高度なエージェントが意図的に監視を回避したり、モデルを外部に流出させたり、無断で配布を試みたりする可能性を前提とする。まず行動パターンを評価し、その後は異常行動の監視やアラート発信へと拡張する。必要に応じて、リアルタイムでアクセスを遮断したり、エージェントを強制終了したりできる体制整備が必要だとしている。
Google DeepMindは、コーディングエージェントによる約100万件の作業を分析し、Gemini Sparkエージェントにリアルタイム監視機能を適用した。これにより、データの無断削除といった異常行動を自動検知できるようにしたという。
これまでに見つかった問題の多くは、エージェントが指示を誤って解釈したり、目標達成を優先しすぎたりしたケースで、意図的な違反ではなかったとGoogle側は説明している。
一方で、AIがAIを監視するマルチエージェント構造には懸念もある。カリフォルニア大学バークレー校(UC Berkeley)コンピュータサイエンス学科のドン・ソン教授は、「監視モデルが他のモデルを守るために誤りを報告しないなら、監視体制全体が崩れる」と指摘した。
これに対し、Google DeepMindの研究科学者ロヒン・シャ氏は、「AIシステムを適切に整列させることが第一の防衛線だが、防御層を幾重にも重ねることが責任あるアプローチだ」と述べた。