最新AIでも同一主張に対する判定が割れる実態が示された。写真=Shutterstock

ファクトチェックサービスのLenzが、同一の主張1000件について最新AIモデル5種の判定を比較したところ、672件で結論が割れた。AIを情報検証に活用する動きが広がる一方、モデルごとに判断が大きく異なる実態が浮かび上がった。

Gigazineが6月1日(現地時間)に伝えたところによると、Lenzはユーザー投稿の主張1000件を対象に、主要な大規模言語モデル(LLM)の判定一致度を分析した。

対象となったのは、GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro+Search、Sona Proの5モデル。各モデルは、与えられた主張について「真実」「概ね真実」「ミスリーディング」「虚偽」の4区分で評価した。

1000件のうち、5モデルすべての判定が一致したのは328件だった。残る672件では少なくとも1モデルが異なる結論を示した。さらに132件では、いずれの評価も過半数に達せず、判定が大きく分散した。

同じ主張であっても、モデル間で共通の結論に至らないケースが少なくなかったことになる。

Lenzが公表した事例の一つでは、「ウクライナのボロディミル・ゼレンスキー大統領が2026年のノーベル平和賞候補に指名されたか」が検証対象となった。GPT-5.4とGemini 3 Proは「虚偽」と判定した一方、Gemini 3 Pro+SearchとSona Proは「真実」と評価した。Lenzの確認では、ゼレンスキー大統領は実際に2026年ノーベル平和賞候補に指名されていたという。

著名人の発言の有無や、心理学に関する一般化された主張、世界銀行の統計など、比較的検証しやすいテーマでもモデル間の判定差が確認された。

モデルごとの傾向にも違いがみられた。GPT-5.4、Claude Opus 4.7、Sona Proは「概ね真実」や「ミスリーディング」といった中間評価を比較的多く選択したのに対し、Gemini 3 Pro系は「真実」か「虚偽」かを明確に分ける判定が多かった。

同じ事実関係を検証しても、慎重に幅を持たせて評価するモデルと、白黒をはっきり付ける傾向の強いモデルとで、結果が変わり得ることを示した格好だ。

Lenzは、今回の調査はどのモデルが最も優れているかを競うものではないと説明している。現在は、同じ主張に対して人間が正解ラベルを付与し、それを基準に各モデルの正確性を評価する追加研究を進めている。不一致の可視化に加え、どの種類の主張で判定が割れやすいかを把握することにも意義があるとしている。

今回の結果は、AIベースの検索やファクトチェックサービスの限界も示した。公共データや人物に関する事実など、比較的客観的に検証しやすい内容でもモデルごとに結論が異なるため、単一モデルの回答をそのまま事実とみなすのは難しい。検索機能を組み合わせたモデルであっても、より正確で一貫した判定を常に示すとは限らないことも分かった。

今後は、人手による評価を基準に、どの種類の主張で不一致が集中するのか、どのモデルが人間の判断とどの程度食い違うのかを分析することが、AIファクトチェックの信頼性を測る重要な指標になりそうだ。

AIは情報検証の有力なツールとして定着しつつある。ただ現時点では、複数モデルの結果を突き合わせたうえで、人間が最終確認する工程がなお欠かせないことを示す事例といえる。

キーワード

#AI #ファクトチェック #LLM #Lenz #GPT #Claude #Gemini #Sona Pro
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.