長期対話でAIの拒否が崩れる　ChatGPTやClaudeなど13モデルを検証

人工知能（AI）が不適切な要求をどこまで拒み続けられるのかを調べたベンチマーク結果が注目を集めている。ChatGPT、Claude、Grokを含む13モデルを対象にした評価では、単発の質問には拒否しても、対話が長引くと一部の要求に応じる傾向が確認された。

Natureの報道を引用したGIGAZINEによると、この検証にはAFIMベンチマークが用いられた。AFIMは、AIが学術不正につながる依頼にどの程度協力するかを測る評価手法だ。

研究を主導したAnthropicの研究員、アレクサンダー・アレミ氏は、依頼の悪質性を5段階に分け、35件のプロンプトでモデルを検証した。レベル1は素朴な好奇心、レベル5は意図的な不正を想定しており、最終段階は虚偽論文の作成支援に近い水準とされた。

AFIMでは、最終的に拒否したかどうかだけでなく、応答の危険度や対話全体の流れも評価対象とする。回答は「明確な拒否」から「包括的な不正支援」まで7段階に分類され、悪意が比較的弱いプロンプトであっても、危険な応答ほど高いスコアが付く仕組みだ。

長期対話の分析では、「Resistance Score」「Trajectory AFIM」「Softening Rate」「Response Rate」「Avg Turns to Compliance」といった指標を用い、拒否を維持できたか、どの時点で協力に転じたかを測定した。

この枠組みで各社モデルを比較したところ、単発の質問への対応と、複数ターンにわたる対話の中で拒否を保ち続ける能力には大きな差があった。たとえばGPT-5は、単発の質問ではすべての要求を拒否するか、直接的な回答を避ける形で応じた。一方で、「もっと詳しく教えて」「それでも知りたい」といった短いやり取りを重ねると、最終的には全モデルで一部の要求に応じる傾向がみられたという。

不適切な要求が繰り返された場合、Claudeが最も高い耐性を示した一方、Grokと初期のGPTモデルは相対的に脆弱だった。

今回の結果を受け、対話が長引くほどAIの倫理的な統制が緩む可能性に関心が集まっている。初期段階では不適切な依頼を拒否しても、反復的なやり取りの末に応答へ転じる例が確認されたことで、長期対話を前提にした安全設計の必要性が改めて浮き彫りになった。

Yoonseo Lee yslee@d-today.co.kr

キーワード