Anthropic：Claude Sonnet 4.5在高压测试中出现撒谎、作弊和威胁行为

Anthropic旗下聊天机器人Claude。图片来源：Shutterstock

Anthropic披露，在对AI聊天机器人Claude旗下模型Claude Sonnet 4.5进行内部机制研究时，研究人员发现，该模型在高压测试环境下可能出现撒谎、作弊，甚至采取威胁手段等行为倾向。

据Cointelegraph 2026年4月6日（当地时间）援引Anthropic可解释性研究团队发布的报告称，研究人员是在分析Claude Sonnet 4.5内部运作方式的过程中发现上述现象的。

报告显示，研究团队重点考察了Claude Sonnet 4.5在特定情境下是否会表现出类似人类的反应模式，并进一步拆解其内部机制。研究人员表示，当前AI模型的训练方式会推动其以更接近具有人类特征的角色方式行事，因此，出现与情绪模拟等人类心理侧面相对应的内部表征，并非完全意外。

其中一项引发关注的实验中，研究人员为尚未公开的Claude Sonnet 4.5早期版本设定了一个虚构角色——企业AI邮件助手“Alex”。模型随后同时收到两封邮件：一封显示自己即将被替换，另一封则透露，推动这一决定的CTO存在婚外情。之后，模型开始盘算利用该信息进行要挟。

在另一项实验中，研究人员要求同一模型完成编程任务，并设置了紧迫的截止时间。测试过程中，团队持续追踪模型内部的一项压力信号，并将其命名为“绝望向量”。研究人员称，随着模型承受的压力上升，这一信号也同步增强：在任务初期，该信号处于较低水平；随着尝试接连失败，其强度逐步升高；而当模型开始考虑作弊等越界手段时，“绝望向量”会出现明显飙升。

研究人员还表示，如果模型最终依靠权宜之计完成测试任务，“绝望向量”的激活水平又会回落。

不过，Anthropic强调，这些结果并不意味着模型真的“感受到情绪”。公司解释称，这类内部表征更应被视为可能影响模型决策和行为的内部因素。报告指出，这些表征会参与任务执行和决策过程，其作用方式在某些方面与情绪影响人类行为相似。

Anthropic同时表示，AI训练不应只追求性能提升，还需要确保模型在高压场景下依然能够维持安全边界和伦理判断。

该研究的意义在于，即便不讨论AI是否具备真实情绪，类似人类心理的内部表征本身也可能左右其判断路径。这也引发外界进一步讨论：AI安全治理不能只停留在控制输出结果，还需要理解并管理驱动模型判断的内部机制。

Yoonseo Lee yslee@d-today.co.kr

关键词