ChatGPTとClaude、ストループテストで成績急落　トランスフォーマー型LLMの限界浮き彫り

ChatGPTやClaudeなどの大規模言語モデル（LLM）が、人間の注意機能や実行統制を測る代表的な心理学課題「ストループテスト」で、設問数の増加に伴って正答率を大きく落とすことが分かった。研究チームは、現行のトランスフォーマー型LLMが抱える構造的な弱点を示す結果だとみている。

この研究は学術誌「PNAS Nexus」に掲載された。TechRadarが4日（現地時間）に報じた。対象となったのはOpenAIのGPT-4oとAnthropicのClaude 3.5 Sonnetだ。

ストループテストは、選択的注意や実行統制の働きを調べる認知心理学の代表的な実験として知られる。例えば、「赤」という語が青色で表示された場合、語の意味と文字色が食い違うことで認知的な干渉が生じる。こうした状況で、語ではなく文字色を答える課題の成績を測る。

研究チームは、AIモデルに対して「単語を読む課題」と「文字色を答える課題」をそれぞれ実施した。その結果、両モデルとも単語の読み上げでは高い精度を示した一方、語の意味と色が衝突する条件では成績が大きく落ちた。

とりわけ、設問数が増えるほど低下は顕著だった。GPT-4oの正答率は5項目で約91%だったが、10項目で57%、20項目で22%、40項目では15%まで下がった。

Claude 3.5 Sonnetも相対的には高い水準を維持したものの、傾向は同じだった。20項目までは76%台を保ったが、40項目では24%まで低下した。

研究チームは、こうした結果を単なる性能低下ではなく、「実行注意（executive attention）」の構造的な限界を示すものと位置付けた。人間は競合する情報の中から課題に必要な要素を選び取れるが、現行のLLMはその統制過程に弱さがあるという。

もっとも、今回の検証はGPT-4oとClaude 3.5 Sonnetが中心で、研究公表時にはGPT-5やClaude Opus 4.1、Gemini 2.5 Proといった新モデルが登場していた。この点は研究の制約として示された。

研究チームはその後、GPT-5、Claude Opus 4.1、Gemini 2.5 Proでも追加検証を行った。ただ、前世代からの改善幅は大きくなく、実行注意の弱さはなお確認されたとしている。

論文では、こうした課題は単純な世代交代だけでは解消しない可能性があると指摘した。トランスフォーマー型アーキテクチャは記憶や情報保持の面では進歩している一方、競合する情報の選別や目標志向の行動を支える実行統制メカニズムが相対的に弱いと分析している。

一方で、例外もあった。GPT-5は「Thinking」モードでコードを生成・実行する手法を使い、ストループテストをほぼ完全に解いた。研究チームはこれを、認知能力そのものの向上というより、外部ツールの利用によって課題を回避したケースだと解釈した。

そのうえで研究チームは、今後のAI開発では単純なメモリ拡張よりも、実行統制の強化を重視すべきだと提言した。人間の注意システムに近い構造を取り入れ、競合する情報を効率よく処理できてこそ、汎用人工知能（AGI）に近づくと強調している。

今回の研究は、生成AIが高い言語生成能力を備える一方で、人間の認知システムとは異なる仕組みで動作していることを改めて示した。

Jinju Hong hongjj@d-today.co.kr

生成中...

AI要約

OpenAIのGPT-4oとAnthropicのClaude 3.5 Sonnetが、ストループテストで設問数の増加に伴って正答率を大きく落とした。追試でも改善は限定的で、トランスフォーマー型LLMの実行統制の弱さが改めて示された。