研究显示,大语言模型的能力高低并不只取决于记忆或答题准确率。图片来源:Shutterstock

最新研究显示,ChatGPT、Claude等大语言模型在经典的斯特鲁普测试中表现并不理想。这项原本用于衡量人类选择性注意力和执行控制能力的实验,如今被用于检验AI模型后,也暴露出当前Transformer架构在执行注意力方面的局限。

据科技媒体TechRadar当地时间4日报道,相关论文近日发表于《PNAS Nexus》。研究人员选取OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet进行斯特鲁普效应实验,评估模型在冲突信息面前的处理能力。

所谓斯特鲁普效应,是指当词语含义与其呈现颜色不一致时,个体在识别目标信息时会受到干扰。比如“红色”二字若以蓝色字体显示,受试者若需要报出字体颜色而不是直接读词,反应速度和准确率通常都会下降。

在实验中,研究团队要求模型分别完成“读词任务”和“报出字体颜色任务”。结果显示,两款模型在读词任务中的表现与人类较为接近,准确率也相对较高;但一旦词义与颜色发生冲突,模型表现便明显下滑。

其中,随着题目数量增加,准确率下降尤为显著。GPT-4o在5题测试中的准确率约为91%,增加到10题后降至57%,在20题时进一步降至22%,到40题时仅剩15%。

Claude 3.5 Sonnet整体表现相对更好,但同样呈现出类似趋势:在20题测试中准确率仍维持在约76%,到了40题则降至24%。

研究人员认为,这种现象并非简单的性能波动,而是反映出模型在执行注意力上的结构性短板。人类能够在冲突信息中筛选出与目标一致的线索,而当前大语言模型在这一控制过程中仍存在明显不足。

不过,论文也存在一定局限。最初实验主要围绕GPT-4o和Claude 3.5 Sonnet展开,而在论文发表前后,GPT-5、Claude Opus 4.1和Gemini 2.5 Pro等更新模型已相继推出。

为此,研究团队随后补充测试了GPT-5、Claude Opus 4.1和Gemini 2.5 Pro。结果显示,这些新模型较上一代虽有一定提升,但幅度有限,执行注意力不足的问题依然存在。

论文指出,这类短板未必能通过简单的模型迭代得到解决。现有Transformer架构持续强化的是记忆和信息存储能力,但在筛选冲突信息、实现目标导向的执行控制方面,仍显得相对薄弱。

研究同时观察到一个例外:GPT-5在“Thinking”模式下,借助编写并执行代码,几乎可以完美完成斯特鲁普测试。不过研究人员认为,这更像是利用外部工具绕开问题,而非模型认知能力本身出现了根本性提升。

研究团队据此提出,未来AI演进不应只着眼于扩大“记忆容量”,还应更加重视执行控制能力的提升。若能引入更接近人类注意系统的结构,并更高效地处理冲突信息,或许才有可能推动通用人工智能(AGI)继续向前发展。

从这一角度看,这项研究也提供了一项侧面证据:尽管生成式AI的语言能力正在快速进步,但其底层运行机制与人类认知系统之间,仍存在明显差异。

关键词

#GPT-4o #Claude 3.5 Sonnet #GPT-5 #Claude Opus 4.1 #Gemini 2.5 Pro #斯特鲁普测试 #执行注意力 #Transformer #PNAS Nexus #AGI
版权所有 © DigitalToday。未经授权禁止转载或传播。