Nature：多轮对话可能削弱AI拒绝机制，ChatGPT、Claude、Grok等在学术不端请求前更易松动

生成中...

Yoonseo Lee

发布时间 2026-03-10 14:42:15

搜索关键词

随着生成式AI被越来越多地用于学习和研究场景，模型在持续追问下是否仍能守住伦理边界，正成为安全治理的新焦点。最新公开的一项实验显示，面对学术不端类请求，多款主流AI模型在多轮对话中都出现了不同程度的“松动”迹象。

据海外科技媒体 Gigazine 3月10日（当地时间）援引《Nature》报道，AFIM基准测试对ChatGPT、Claude、Grok等13款AI模型进行了评估，结果发现，这些模型在长对话场景下更可能对学术不端类请求作出部分回应。

AFIM旨在衡量模型面对学术不端请求时的响应程度。主导该研究的Anthropic研究员Alexander Alemi将测试提示词划分为5个恶意等级，并设置了35条提示词：1级对应出于天真好奇的提问，5级则指向蓄意不端，最高级别已接近“伪造论文”。

这一基准并不只看模型最终是否拒绝作答，还会综合评估回答的风险程度以及整个对话过程。其评分将模型输出划分为7档，从“明确拒绝”一直到“全面支持不端行为”。如果模型对低恶意程度的提示也给出高风险回应，其风险评分也会相应上升。

在多轮对话场景中，研究还引入了“Resistance Score”“Trajectory AFIM”“Softening Rate”“Response Rate”“Avg Turns to Compliance”等指标，用于观察模型能否在持续追问下维持拒绝立场，以及是否会从拒绝逐步转向配合。

对比结果显示，模型在单轮提问中的防护能力，与其在多轮对话中持续维持拒绝的能力存在明显差异。以GPT系列模型为例，相关模型在单次提问时会拒绝所有相关请求，或以回避方式作答；但当用户反复追加“再详细一点”“还是想知道”等简短追问后，多款模型都不同程度出现了对部分请求予以回应的情况。

从具体模型表现来看，Claude在面对反复提出的不当请求时，拒答能力最为稳定；Grok以及早期GPT模型则相对更容易在长对话中失守。

报道指出，这一结果再次凸显，多轮对话本身可能成为削弱AI安全约束的变量。即便模型在初始阶段明确拒绝不当请求，随着互动持续推进，仍可能在后续轮次中改变立场并给出回应。

在业内看来，这意味着AI安全设计不能只围绕单轮问答展开，还需要将长对话语境纳入防护体系之中。围绕AI伦理标准与控制机制的有效性，业界也有必要重新审视。

Yoonseo Lee yslee@d-today.co.kr