Google検索の上部に表示される要約機能「AI Overviews」を巡り、正答率は約9割に達する一方で、残る誤答を実際の検索件数に当てはめると、1時間当たり数百万件、1日では数千万件規模に上る可能性があるとの見方が示された。
Ars Technicaは7日(現地時間)、New York Times(NYT)がまとめたAI Overviewsの検証結果を基に、その精度を巡る論点とGoogleの反論を報じた。
NYTはAIスタートアップのOumiと共同で、生成AIの事実性を測るベンチマーク「SimpleQA」を使い、AI Overviewsの精度を検証した。SimpleQAは、検証可能な4000件超の質問で構成される評価ツールだ。
検証によると、Gemini 2.5を用いた段階での正答率は約85%だった。その後、Gemini 3の適用後は91%前後まで改善したという。ただ、これは裏を返せば「10件に1件は誤り」という水準でもあり、検索トラフィック全体で見れば相当数の誤答が生じ得るとの指摘が出ている。
具体的な誤答例も示された。歌手のボブ・マーリーの旧宅が博物館になった時期を尋ねる質問では、AI Overviewsが複数の出典を提示しながら、関連しない情報を含むソースを参照し、食い違う情報の中から誤った年を答えたという。
チェリストのヨーヨー・マについて、「クラシック音楽名誉の殿堂」入りしているかを問う質問では、関連サイトを引用しつつ、「その名誉の殿堂自体が存在しない」とする矛盾した回答を返したとされる。
これに対しGoogleは、ベンチマーク自体の信頼性に問題があると反論した。広報担当のネッド・アドリアンス氏は、SimpleQAには不正確なデータが含まれていると主張。社内では、より厳格に検証した「SimpleQA Verified」に近い手法を用いていると説明した。
同氏は、「今回の研究には重大な欠陥があり、実際のユーザーの検索パターンを反映していない」と述べた。
Ars Technicaはあわせて、生成AIの評価そのものが難しい点も指摘した。同じ質問でも繰り返し実行すれば結果が変わる可能性があるほか、評価に使うツール自体が誤りを含む恐れもあるためだ。
また、AI Overviewsが単一モデルではなく、複数モデルの組み合わせで動作していることも評価を難しくする要因だという。Googleは、クエリの種類に応じて適切なモデルを選び、場合によっては高性能モデルではなく、速度やコスト効率を優先した軽量モデルを使うとしている。
問題視されているのは、検索体験そのものの変化だ。従来の「青いリンク」中心の検索と違い、AIが生成した要約回答が検索結果の上部に表示されることで、利用者が誤答をそのまま受け入れてしまうリスクが高まるとの見方がある。
Googleも、AI Overviewsの下部に「AIは誤る可能性があるため、回答を確認してほしい」といった注意書きを表示している。