一项最新研究显示,即使大型语言模型(LLM)聊天机器人给出错误答案,用户仍有较高概率直接采纳。在时间压力上升时,这种倾向会进一步加剧;相反,如果提供小额奖励并给出即时反馈,用户纠正错误答案的可能性则会明显提升。
据科技媒体 Ars Technica 当地时间3日 报道,美国宾夕法尼亚大学研究团队将这一现象概括为“认知投降”。研究人员指出,这并不只是像使用计算器或GPS那样,把部分任务交给机器处理,而是在缺乏充分审视的情况下,直接接受AI的推理结果。
在此基础上,研究团队还提出了一种介于“直觉判断”和“分析判断”之外的新类型,即由算法引导形成判断的“人工认知”。
研究团队在认知反思测试(CRT)框架下招募了1372名参与者,累计完成逾9500次测试。实验中,参与者可以自行选择是否借助一款经过专门调校的LLM聊天机器人,而这款机器人给出的答案中,约有一半是错误的。
结果显示,在可使用AI的组别中,参与者大约会在一半的题目上参考聊天机器人的答案。当AI回答正确时,93%的参与者会采纳其建议;即便AI回答错误,采纳率仍达到80%。整体来看,使用AI的组别在AI给出正确答案时,成绩优于对照组;但当AI给出错误答案时,表现反而更差。尽管如此,这些参与者对自己答案的信心仍高于对照组11.7%。
研究还显示,外部激励和反馈机制会显著影响用户判断。若提供小额奖励,并在答题后反馈正确答案,参与者纠正错误AI答案的比例较基准水平提高了19个百分点;但如果将答题时限压缩至30秒,这一比例则会下降12个百分点。
与此同时,个体差异也十分明显。流体智力得分较高的参与者,对AI的依赖程度相对更低,也更容易识别并纠正错误答案;而越倾向于将AI视为权威的人,越容易被错误回答带偏。
研究团队并不认为依赖AI本身就是一种非理性行为,但强调,用户一旦过度依赖AI,自身表现就会更直接地受到模型质量影响:AI准确时,成绩随之提升;AI出错时,判断能力也会同步下滑。