据Axios 18日(当地时间)报道,Google DeepMind正将AI智能体视作潜在的内部威胁,而不再仅仅把它当作软件工具,并已着手建立相应的控制体系。
Google DeepMind近日发布《AI控制路线图》称,随着智能体能力不断提升,监测和拦截措施也应按风险等级同步升级。
根据该路线图,能力更强的智能体可能会主动规避监视、泄露模型,或尝试进行未经授权的分发。为此,Google DeepMind提出,首先应对智能体行为进行分级评估,在此基础上逐步扩展至异常操作监测和告警;在必要情况下,还应具备实时中断访问权限并强制终止智能体运行的基础设施能力。
Google DeepMind表示,该框架基于对约100万次编程智能体任务的分析。目前,Gemini Spark智能体已引入实时监测能力,可自动识别未经授权删除数据等异常操作。
Google方面还表示,当前发现的大多数问题并非源于智能体蓄意违规,而是由于其误解指令,或在执行目标时出现过度行为。
对于“AI监督AI”的多智能体相互监督机制,业界也存在担忧。加州大学伯克利分校计算机科学系教授Dawn Song指出,如果负责监测的模型出于“袒护”其他模型而不报告错误,整个监控体系就可能失效。Google DeepMind研究科学家Rohin Shah则表示,让AI系统实现正确对齐是第一道防线,但建立多层防护体系,才是更负责任的做法。
记者信息