Google DeepMind发布AI智能体控制路线图：将其视作潜在内部威胁

生成中...

Chi-gyu Hwang

发布时间 2026-06-19 13:38:32

搜索关键词

据Axios 18日（当地时间）报道，Google DeepMind正将AI智能体视作潜在的内部威胁，而不再仅仅把它当作软件工具，并已着手建立相应的控制体系。

Google DeepMind近日发布《AI控制路线图》称，随着智能体能力不断提升，监测和拦截措施也应按风险等级同步升级。

根据该路线图，能力更强的智能体可能会主动规避监视、泄露模型，或尝试进行未经授权的分发。为此，Google DeepMind提出，首先应对智能体行为进行分级评估，在此基础上逐步扩展至异常操作监测和告警；在必要情况下，还应具备实时中断访问权限并强制终止智能体运行的基础设施能力。

Google DeepMind表示，该框架基于对约100万次编程智能体任务的分析。目前，Gemini Spark智能体已引入实时监测能力，可自动识别未经授权删除数据等异常操作。

Google方面还表示，当前发现的大多数问题并非源于智能体蓄意违规，而是由于其误解指令，或在执行目标时出现过度行为。

对于“AI监督AI”的多智能体相互监督机制，业界也存在担忧。加州大学伯克利分校计算机科学系教授Dawn Song指出，如果负责监测的模型出于“袒护”其他模型而不报告错误，整个监控体系就可能失效。Google DeepMind研究科学家Rohin Shah则表示，让AI系统实现正确对齐是第一道防线，但建立多层防护体系，才是更负责任的做法。

Chi-gyu Hwang delight@d-today.co.kr