研究：GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑

最新研究显示，ChatGPT、Claude等大语言模型在经典的斯特鲁普测试中表现并不理想。这项原本用于衡量人类选择性注意力和执行控制能力的实验，如今被用于检验AI模型后，也暴露出当前Transformer架构在执行注意力方面的局限。

据科技媒体TechRadar当地时间4日报道，相关论文近日发表于《PNAS Nexus》。研究人员选取OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet进行斯特鲁普效应实验，评估模型在冲突信息面前的处理能力。

所谓斯特鲁普效应，是指当词语含义与其呈现颜色不一致时，个体在识别目标信息时会受到干扰。比如“红色”二字若以蓝色字体显示，受试者若需要报出字体颜色而不是直接读词，反应速度和准确率通常都会下降。

在实验中，研究团队要求模型分别完成“读词任务”和“报出字体颜色任务”。结果显示，两款模型在读词任务中的表现与人类较为接近，准确率也相对较高；但一旦词义与颜色发生冲突，模型表现便明显下滑。

其中，随着题目数量增加，准确率下降尤为显著。GPT-4o在5题测试中的准确率约为91%，增加到10题后降至57%，在20题时进一步降至22%，到40题时仅剩15%。

Claude 3.5 Sonnet整体表现相对更好，但同样呈现出类似趋势：在20题测试中准确率仍维持在约76%，到了40题则降至24%。

研究人员认为，这种现象并非简单的性能波动，而是反映出模型在执行注意力上的结构性短板。人类能够在冲突信息中筛选出与目标一致的线索，而当前大语言模型在这一控制过程中仍存在明显不足。

不过，论文也存在一定局限。最初实验主要围绕GPT-4o和Claude 3.5 Sonnet展开，而在论文发表前后，GPT-5、Claude Opus 4.1和Gemini 2.5 Pro等更新模型已相继推出。

为此，研究团队随后补充测试了GPT-5、Claude Opus 4.1和Gemini 2.5 Pro。结果显示，这些新模型较上一代虽有一定提升，但幅度有限，执行注意力不足的问题依然存在。

论文指出，这类短板未必能通过简单的模型迭代得到解决。现有Transformer架构持续强化的是记忆和信息存储能力，但在筛选冲突信息、实现目标导向的执行控制方面，仍显得相对薄弱。

研究同时观察到一个例外：GPT-5在“Thinking”模式下，借助编写并执行代码，几乎可以完美完成斯特鲁普测试。不过研究人员认为，这更像是利用外部工具绕开问题，而非模型认知能力本身出现了根本性提升。

研究团队据此提出，未来AI演进不应只着眼于扩大“记忆容量”，还应更加重视执行控制能力的提升。若能引入更接近人类注意系统的结构，并更高效地处理冲突信息，或许才有可能推动通用人工智能（AGI）继续向前发展。

从这一角度看，这项研究也提供了一项侧面证据：尽管生成式AI的语言能力正在快速进步，但其底层运行机制与人类认知系统之间，仍存在明显差异。

Jinju Hong hongjj@d-today.co.kr