AI & Enterprise
研究:GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑
发表在《PNAS Nexus》的一项研究显示,GPT-4o和Claude 3.5 Sonnet在斯特鲁普测试中一旦遇到词义与颜色冲突,表现便明显下降,且题目越多,准确率下滑越显著。研究团队随后对GPT-5、Claude Opus 4.1和Gemini 2.5 Pro进行补充测试,结果同样显示提升幅度有限。论文认为,这反映出现有Transformer架构在执行注意力和目标导向控制机制上的不足,或将成为AI进一步迈向AGI的制约因素。