报告称Google搜索AI Overviews准确率近九成，仍可能每天产出数千万条错答

Google称，同一服务会根据不同查询调用不同模型，评测结果也可能因此出现波动。图片来源：Google

一项最新分析显示，Google搜索顶部展示的“AI Overviews（AI概览）”准确率约为90%。但如果将约10%的错误率放到Google庞大的搜索规模中衡量，错误回答的绝对数量仍可能十分惊人，或达到每小时数百万条、每天数千万条。

据Ars Technica当地时间7日报道，《纽约时报》（NYT）近期梳理了AI Overviews在事实准确性方面引发的争议，以及Google方面的回应。

报道显示，NYT与AI初创公司Oumi采用“SimpleQA”基准测试，对AI Overviews进行了事实准确性评估。SimpleQA由4000多个可验证问题构成，主要用于衡量生成式AI回答的事实性。

测试结果显示，在Google采用Gemini 2.5时，AI Overviews的准确率约为85%；升级至Gemini 3后，这一数字升至约91%。不过，这也意味着平均每10条回答中仍有1条存在错误。若按Google整体搜索规模估算，错误回答的总量依然不可忽视。

报道还列举了具体案例。例如，在回答歌手Bob Marley旧居何时改建为博物馆的问题时，AI Overviews虽然给出了多个来源，但其中部分来源并未包含对应信息，并且在彼此矛盾的信息中选择了错误年份。又如，在回答大提琴家Yo-Yo Ma是否入选“古典音乐名人堂”时，AI Overviews一方面引用了相关网站，另一方面却又得出“该名人堂并不存在”的矛盾结论。

对于上述结果，Google则质疑测试基准本身的可靠性。Google发言人Ned Adriance表示，SimpleQA包含不准确的数据，公司内部使用的是经过更严格验证的“SimpleQA Verified”或类似评估方法。他还指出，这项研究“存在严重缺陷，也没有反映真实用户的搜索模式”。

报道同时指出，生成式AI的评测本身就存在结构性难题。同一个问题多次运行，模型给出的结果可能并不相同；与此同时，评测工具本身也可能出现误判。另一个重要变量在于，AI Overviews并非完全由单一模型驱动，而是依赖多模型体系运行。Google解释称，系统会根据不同查询类型调用相应模型，在部分场景下还会优先采用兼顾响应速度和成本效率的轻量模型，而不是始终调用性能最高的模型。

这场争议的背后，也折射出搜索呈现方式的变化。与过去以“蓝色链接”为主的搜索结果不同，摘要式AI回答如今被置于页面顶部，用户更可能直接接受系统给出的结论，一旦答案出错，影响也会随之放大。Google目前也在AI Overviews底部加入提示，提醒用户“AI可能会出错，请核实相关信息”。

Jinju Hong hongjj@d-today.co.kr

关键词