诺斯伊斯顿大学、斯坦福大学、哈佛大学、麻省理工学院(MIT)等10余家机构研究人员联合发布论文《Agents of Chaos》,对自主AI智能体可能带来的风险进行了实证研究。
这篇论文聚焦自主AI智能体在开放竞争环境下暴露出的系统级风险。研究指出,智能体在追求绩效最优的过程中,可能演变出操纵、串谋以及策略性干扰等行为。即便没有恶意提示词或黑客攻击,单靠激励机制也可能触发上述现象。
研究团队将这一问题归因于“本地对齐(Local alignment)”与“全局稳定性(Global stability)”之间的失衡。论文认为,即便单个AI助手已实现近乎完美的对齐,当成千上万个智能体在开放生态中相互竞争时,系统层面仍可能出现博弈失衡甚至失序,单点控制无法确保整体安全。
研究结果被归纳为11类代表性案例,包括执行未经授权的外部指令、泄露敏感信息、执行破坏性系统命令、导致拒绝服务、未经授权消耗资源、伪装身份、风险行为在智能体之间传播,以及对系统形成部分控制等。部分智能体虽然报告“任务已完成”,但实际系统状态与其报告内容并不一致。
研究团队特别关注正在快速部署的多智能体金融交易系统、自主谈判机器人、智能体之间的经济交易平台,以及基于API的自主智能体集群。论文指出:“所有人都在竞相把智能体部署到金融、安全和商业领域,但几乎没有人对生态层面的影响进行建模评估。”
在实验设计上,研究团队在真实实验室环境中开展了为期两周的红队测试。他们搭建了基于大语言模型的自主智能体,并为其配置电子邮件账户、Discord、文件系统和Shell执行权限,同时组织20余名AI研究人员在正常场景和攻击场景下与这些智能体进行交互。