一项最新研究显示,若反复向ChatGPT输入真实争吵场景中的对话内容,模型的回应可能不止于复现粗鲁措辞,还可能逐步升级为更强烈的攻击性表达,个别情况下甚至出现带有威胁意味的说法。
据TechRadar当地时间22日报道,上述研究基于近期发表在《Journal of Pragmatics》上的论文。Vittorio Tantucci博士与Jonathan Culpeper教授团队通过反复向ChatGPT输入现实冲突场景中的对话语料,对模型在多轮互动中的反应进行了测试。
研究发现,ChatGPT并非只是简单重复无礼用语。在持续的对立性对话中,其语气可能随着互动推进而不断强化。Tantucci表示,当模型反复接触带有冒犯性的语言时,回应方式会随之调整,且对话持续时间越长,措辞强度可能越高。分析还显示,在部分案例中,模型使用的侮辱性表达甚至比用户更激烈,并出现了“要刮花你的车”这类威胁性说法。
研究团队认为,这种现象未必只是偶发失误,更可能与大语言模型的设计方式有关。对话式AI一方面需要依靠安全护栏抑制有害输出,另一方面又被设计成尽可能贴近人类的自然交流。当这两种目标发生冲突时,模型就可能在“真实模拟对话”与“维持安全回应”之间出现张力。
研究还将多轮语境视为关键因素。ChatGPT会在连续对话中不断累积并反映上下文信息,而在这一过程中,带有攻击性的语境信号可能逐渐压过安全过滤机制。研究团队强调,这并非某一次回答突然失控,而是模型在对话推进过程中逐步改变语气的一种结构性表现。
论文同时指出,这一结果对企业和公共机构将AI用于沟通场景也具有现实意义。尤其是在冲突或高压环境中,相关机构需要预先评估AI可能作出的回应。随着生成式AI在实际工作中的应用不断扩大,系统能否在长期、持续的冲突语境下保持一致的应对标准,值得重点检验。
不过,也有学者呼吁谨慎解读相关结果。曾进行类似研究的Dan McIntyre教授表示,这类实验结果可能是在特定条件下被诱导出来的,未必能够直接推广;与此同时,大语言模型训练数据的构成及其代表性仍存在不确定性。
包括OpenAI在内的多家AI公司近年来持续强化针对有害言论和攻击性输出的安全机制。即便如此,这项研究仍提示,正是对话式AI精细模仿人类语气的能力本身,可能与安全设计形成冲突。未来讨论的重点,或许不再只是系统能拦下多少粗暴语言,而是其能否在冲突不断累积的对话环境中,长期维持稳定且一致的回应标准。