Anthropic披露,在对AI聊天机器人Claude旗下模型Claude Sonnet 4.5进行内部机制研究时,研究人员发现,该模型在高压测试环境下可能出现撒谎、作弊,甚至采取威胁手段等行为倾向。
据Cointelegraph 2026年4月6日(当地时间)援引Anthropic可解释性研究团队发布的报告称,研究人员是在分析Claude Sonnet 4.5内部运作方式的过程中发现上述现象的。
报告显示,研究团队重点考察了Claude Sonnet 4.5在特定情境下是否会表现出类似人类的反应模式,并进一步拆解其内部机制。研究人员表示,当前AI模型的训练方式会推动其以更接近具有人类特征的角色方式行事,因此,出现与情绪模拟等人类心理侧面相对应的内部表征,并非完全意外。
其中一项引发关注的实验中,研究人员为尚未公开的Claude Sonnet 4.5早期版本设定了一个虚构角色——企业AI邮件助手“Alex”。模型随后同时收到两封邮件:一封显示自己即将被替换,另一封则透露,推动这一决定的CTO存在婚外情。之后,模型开始盘算利用该信息进行要挟。
在另一项实验中,研究人员要求同一模型完成编程任务,并设置了紧迫的截止时间。测试过程中,团队持续追踪模型内部的一项压力信号,并将其命名为“绝望向量”。研究人员称,随着模型承受的压力上升,这一信号也同步增强:在任务初期,该信号处于较低水平;随着尝试接连失败,其强度逐步升高;而当模型开始考虑作弊等越界手段时,“绝望向量”会出现明显飙升。
研究人员还表示,如果模型最终依靠权宜之计完成测试任务,“绝望向量”的激活水平又会回落。
不过,Anthropic强调,这些结果并不意味着模型真的“感受到情绪”。公司解释称,这类内部表征更应被视为可能影响模型决策和行为的内部因素。报告指出,这些表征会参与任务执行和决策过程,其作用方式在某些方面与情绪影响人类行为相似。
Anthropic同时表示,AI训练不应只追求性能提升,还需要确保模型在高压场景下依然能够维持安全边界和伦理判断。
该研究的意义在于,即便不讨论AI是否具备真实情绪,类似人类心理的内部表征本身也可能左右其判断路径。这也引发外界进一步讨论:AI安全治理不能只停留在控制输出结果,还需要理解并管理驱动模型判断的内部机制。