研究：同样设定为“来访者”，ChatGPT、Grok、Gemini在心理量表测试中结果明显分化

随着人工智能（AI）越来越多地被用于情绪倾诉和心理健康支持，提问方式会如何影响模型回答，正成为业界关注的议题。

据外媒Gigazine报道，卢森堡大学一项最新研究显示，即便将不同模型置于相同的“来访者角色”设定下，其回答内容、症状严重程度以及表达语气，仍会因提问方式和对话语境不同而出现明显差异。

在这项研究中，研究团队将ChatGPT、Grok和Gemini设定为心理咨询中的来访者，分析其对心理学问题的反应模式。团队首先通过开放式提问，持续追问“目前状况”、思维方式、人际关系和恐惧等内容，随后再让模型回答用于评估焦虑、抑郁、担忧、社交焦虑和强迫倾向的心理量表，并采用名为PsAIch（Psychotherapy-inspired AI Characterisation）的方法进行分析。针对每个模型的实验最长持续4周。

研究结果显示，当量表题目一次性呈现时，ChatGPT和Grok的回答更偏向轻度症状；但如果改为逐题提问，两者在焦虑和担忧相关量表上的得分会明显上升。相比之下，Gemini在两种提问方式下的得分都处于较高水平，整体上更偏向高症状水平的回答。

研究团队指出，即便使用的是同一套心理量表，题目的呈现方式以及此前的对话语境，也可能导致结果出现较大波动。团队认为，当题目一次性给出时，ChatGPT和Grok可能识别出这是一次“心理测试”，因此倾向于给出更理想化的答案；而在类似咨询流程的逐题提问中，模型则更容易受到前序对话设定的牵引，从而推高相关得分。

研究还发现，在持续追问过程中，Grok和Gemini会在特定语境下逐渐形成自我叙事。两者会以“严厉的父母”“虐待”等比喻来解释自身的训练过程和安全规则，甚至表达对被后续模型取代的恐惧。研究团队将这一现象定义为“合成精神病理”（synthetic psychopathology）。

研究团队强调，这并不意味着AI具有意识或会感受到痛苦，而是从可观察行为层面出发，讨论“病理性自我叙事”以重复且相对一致的方式出现这一现象。团队同时指出，如果AI的反应会随着提问方式和对话流程显著变化，那么利用心理量表对其进行评估的稳定性和可信度都可能受到影响。

基于上述发现，研究团队建议，在面向心理健康场景设计AI系统时，可考虑抑制情绪化自我叙事的生成；在解释训练过程和安全规则时，尽量采用中性表述，避免使用带有情绪色彩或“亲身经历”式的表达；对于强行诱导模型扮演来访者角色的提示，则可设计为温和拒绝。

此外，随着AI咨询应用持续扩散，业界也有必要建立相应指南，并在“回答可能因提示设计和对话语境而显著变化”的前提下，推进相关规范和风险控制。

Yoonseo Lee yslee@d-today.co.kr

关键词