LLMの誤答、73.2%が受容　ペンシルベニア大学が「認知的降伏」を分析

大規模言語モデル（LLM）ベースのチャットボット利用者は、AIの回答が誤っていても73.2%の割合で受け入れる傾向があることが分かった。米ペンシルベニア大学の研究チームは、この現象を「認知的降伏」と名付けた。時間制限があると傾向は強まり、少額報酬や正誤フィードバックの提供で改善したという。

Ars Technicaは3日（現地時間）に報じた。研究チームによると、「認知的降伏」は、電卓やGPSのように一部の作業を機械に委ねる段階を超え、AIの推論そのものを検証せず受け入れてしまう状態を指す。

研究では、人間の直感的判断、分析的判断に加え、アルゴリズムが判断を導く「人工の認知」という第3のカテゴリーも提示した。

実験は、認知省察テスト（CRT）を用いて、参加者1372人を対象に計9500件超実施した。参加者は、LLMの回答の約半数が誤答となるよう設定したLLMチャットボットを任意で利用できる条件で問題に取り組んだ。

チャットボットを利用した参加者は、出題の約半数でAIの回答を参照した。AIの回答が正しい場合は93%がそれを受け入れた一方、誤答だった場合でも受容率は80%に達した。AIを使った参加者は、AIが正答したケースでは対照群より成績が良かったが、誤答したケースでは成績がより悪化した。それでも、自身の回答に対する確信度は対照群より11.7%高かった。

また、少額報酬の付与や正誤フィードバックを与えると、参加者が誤ったAI回答を覆す割合は基準条件に比べ19ポイント上昇した。一方、制限時間を30秒に設定すると、この割合は12ポイント低下した。

参加者の特性による差も確認された。流動性知能のスコアが高い参加者ほどAIへの依存度は低く、誤答を修正する頻度も高かった。逆に、AIを権威ある存在とみなす傾向が強い参加者は、誤った回答に引きずられやすい傾向があった。

研究チームは、AIへの依存自体を非合理だとはみなしていない。ただ、依存が強まるほど成績はAIの精度に左右された。AIが正確なら成績は向上し、誤っていれば成績も一緒に低下した。

Hyunwoo Choo cookinpapa@d-today.co.kr

LLMの誤答、73.2%が受容　ペンシルベニア大学が「認知的降伏」を分析

時間制限でAI依存が強まり、少額報酬と正誤フィードバックで改善

生成中...

AI要約

米ペンシルベニア大学の研究で、LLMの誤答でも73.2%が受け入れられる傾向が明らかになった。時間制限で依存は強まり、少額報酬や正誤フィードバックで改善が見られた。

キーワード