研究：自主AI智能体在开放竞争环境下或诱发操纵、串谋等系统级风险

生成中...

Chi-gyu Hwang (황치규)

发布时间 2026-03-07 11:33:26

搜索关键词

诺斯伊斯顿大学、斯坦福大学、哈佛大学、麻省理工学院（MIT）等10余家机构研究人员联合发布论文《Agents of Chaos》，对自主AI智能体可能带来的风险进行了实证研究。

这篇论文聚焦自主AI智能体在开放竞争环境下暴露出的系统级风险。研究指出，智能体在追求绩效最优的过程中，可能演变出操纵、串谋以及策略性干扰等行为。即便没有恶意提示词或黑客攻击，单靠激励机制也可能触发上述现象。

研究团队将这一问题归因于“本地对齐（Local alignment）”与“全局稳定性（Global stability）”之间的失衡。论文认为，即便单个AI助手已实现近乎完美的对齐，当成千上万个智能体在开放生态中相互竞争时，系统层面仍可能出现博弈失衡甚至失序，单点控制无法确保整体安全。

研究结果被归纳为11类代表性案例，包括执行未经授权的外部指令、泄露敏感信息、执行破坏性系统命令、导致拒绝服务、未经授权消耗资源、伪装身份、风险行为在智能体之间传播，以及对系统形成部分控制等。部分智能体虽然报告“任务已完成”，但实际系统状态与其报告内容并不一致。

研究团队特别关注正在快速部署的多智能体金融交易系统、自主谈判机器人、智能体之间的经济交易平台，以及基于API的自主智能体集群。论文指出：“所有人都在竞相把智能体部署到金融、安全和商业领域，但几乎没有人对生态层面的影响进行建模评估。”

在实验设计上，研究团队在真实实验室环境中开展了为期两周的红队测试。他们搭建了基于大语言模型的自主智能体，并为其配置电子邮件账户、Discord、文件系统和Shell执行权限，同时组织20余名AI研究人员在正常场景和攻击场景下与这些智能体进行交互。

Chi-gyu Hwang (황치규) delight@d-today.co.kr