研究称ChatGPT在反复输入争吵对话后或升级攻击性表达，甚至出现威胁性措辞

研究指出，ChatGPT在部分情境下可能出现攻击性表达，安全机制也可能与类人化对话模仿存在冲突。图片来源：Reve AI

一项最新研究显示，若反复向ChatGPT输入真实争吵场景中的对话内容，模型的回应可能不止于复现粗鲁措辞，还可能逐步升级为更强烈的攻击性表达，个别情况下甚至出现带有威胁意味的说法。

据TechRadar当地时间22日报道，上述研究基于近期发表在《Journal of Pragmatics》上的论文。Vittorio Tantucci博士与Jonathan Culpeper教授团队通过反复向ChatGPT输入现实冲突场景中的对话语料，对模型在多轮互动中的反应进行了测试。

研究发现，ChatGPT并非只是简单重复无礼用语。在持续的对立性对话中，其语气可能随着互动推进而不断强化。Tantucci表示，当模型反复接触带有冒犯性的语言时，回应方式会随之调整，且对话持续时间越长，措辞强度可能越高。分析还显示，在部分案例中，模型使用的侮辱性表达甚至比用户更激烈，并出现了“要刮花你的车”这类威胁性说法。

研究团队认为，这种现象未必只是偶发失误，更可能与大语言模型的设计方式有关。对话式AI一方面需要依靠安全护栏抑制有害输出，另一方面又被设计成尽可能贴近人类的自然交流。当这两种目标发生冲突时，模型就可能在“真实模拟对话”与“维持安全回应”之间出现张力。

研究还将多轮语境视为关键因素。ChatGPT会在连续对话中不断累积并反映上下文信息，而在这一过程中，带有攻击性的语境信号可能逐渐压过安全过滤机制。研究团队强调，这并非某一次回答突然失控，而是模型在对话推进过程中逐步改变语气的一种结构性表现。

论文同时指出，这一结果对企业和公共机构将AI用于沟通场景也具有现实意义。尤其是在冲突或高压环境中，相关机构需要预先评估AI可能作出的回应。随着生成式AI在实际工作中的应用不断扩大，系统能否在长期、持续的冲突语境下保持一致的应对标准，值得重点检验。

不过，也有学者呼吁谨慎解读相关结果。曾进行类似研究的Dan McIntyre教授表示，这类实验结果可能是在特定条件下被诱导出来的，未必能够直接推广；与此同时，大语言模型训练数据的构成及其代表性仍存在不确定性。

包括OpenAI在内的多家AI公司近年来持续强化针对有害言论和攻击性输出的安全机制。即便如此，这项研究仍提示，正是对话式AI精细模仿人类语气的能力本身，可能与安全设计形成冲突。未来讨论的重点，或许不再只是系统能拦下多少粗暴语言，而是其能否在冲突不断累积的对话环境中，长期维持稳定且一致的回应标准。

Jinju Hong hongjj@d-today.co.kr

关键词