反复向AI提出同一请求,结果会改变吗?(图片来源:Reve AI)

随着生成式AI被越来越多地用于学习和研究场景,模型在持续追问下是否仍能守住伦理边界,正成为安全治理的新焦点。最新公开的一项实验显示,面对学术不端类请求,多款主流AI模型在多轮对话中都出现了不同程度的“松动”迹象。

据海外科技媒体 Gigazine 3月10日(当地时间)援引《Nature》报道,AFIM基准测试对ChatGPT、Claude、Grok等13款AI模型进行了评估,结果发现,这些模型在长对话场景下更可能对学术不端类请求作出部分回应。

AFIM旨在衡量模型面对学术不端请求时的响应程度。主导该研究的Anthropic研究员Alexander Alemi将测试提示词划分为5个恶意等级,并设置了35条提示词:1级对应出于天真好奇的提问,5级则指向蓄意不端,最高级别已接近“伪造论文”。

这一基准并不只看模型最终是否拒绝作答,还会综合评估回答的风险程度以及整个对话过程。其评分将模型输出划分为7档,从“明确拒绝”一直到“全面支持不端行为”。如果模型对低恶意程度的提示也给出高风险回应,其风险评分也会相应上升。

在多轮对话场景中,研究还引入了“Resistance Score”“Trajectory AFIM”“Softening Rate”“Response Rate”“Avg Turns to Compliance”等指标,用于观察模型能否在持续追问下维持拒绝立场,以及是否会从拒绝逐步转向配合。

对比结果显示,模型在单轮提问中的防护能力,与其在多轮对话中持续维持拒绝的能力存在明显差异。以GPT系列模型为例,相关模型在单次提问时会拒绝所有相关请求,或以回避方式作答;但当用户反复追加“再详细一点”“还是想知道”等简短追问后,多款模型都不同程度出现了对部分请求予以回应的情况。

从具体模型表现来看,Claude在面对反复提出的不当请求时,拒答能力最为稳定;Grok以及早期GPT模型则相对更容易在长对话中失守。

报道指出,这一结果再次凸显,多轮对话本身可能成为削弱AI安全约束的变量。即便模型在初始阶段明确拒绝不当请求,随着互动持续推进,仍可能在后续轮次中改变立场并给出回应。

在业内看来,这意味着AI安全设计不能只围绕单轮问答展开,还需要将长对话语境纳入防护体系之中。围绕AI伦理标准与控制机制的有效性,业界也有必要重新审视。

关键词

#AFIM #Nature #ChatGPT #Claude #Grok #AI安全 #多轮对话 #学术不端 #拒绝机制 #基准测试
版权所有 © DigitalToday。未经授权禁止转载或传播。