一项最新分析显示,Google搜索顶部展示的“AI Overviews(AI概览)”准确率约为90%。但如果将约10%的错误率放到Google庞大的搜索规模中衡量,错误回答的绝对数量仍可能十分惊人,或达到每小时数百万条、每天数千万条。
据Ars Technica当地时间7日报道,《纽约时报》(NYT)近期梳理了AI Overviews在事实准确性方面引发的争议,以及Google方面的回应。
报道显示,NYT与AI初创公司Oumi采用“SimpleQA”基准测试,对AI Overviews进行了事实准确性评估。SimpleQA由4000多个可验证问题构成,主要用于衡量生成式AI回答的事实性。
测试结果显示,在Google采用Gemini 2.5时,AI Overviews的准确率约为85%;升级至Gemini 3后,这一数字升至约91%。不过,这也意味着平均每10条回答中仍有1条存在错误。若按Google整体搜索规模估算,错误回答的总量依然不可忽视。
报道还列举了具体案例。例如,在回答歌手Bob Marley旧居何时改建为博物馆的问题时,AI Overviews虽然给出了多个来源,但其中部分来源并未包含对应信息,并且在彼此矛盾的信息中选择了错误年份。又如,在回答大提琴家Yo-Yo Ma是否入选“古典音乐名人堂”时,AI Overviews一方面引用了相关网站,另一方面却又得出“该名人堂并不存在”的矛盾结论。
对于上述结果,Google则质疑测试基准本身的可靠性。Google发言人Ned Adriance表示,SimpleQA包含不准确的数据,公司内部使用的是经过更严格验证的“SimpleQA Verified”或类似评估方法。他还指出,这项研究“存在严重缺陷,也没有反映真实用户的搜索模式”。
报道同时指出,生成式AI的评测本身就存在结构性难题。同一个问题多次运行,模型给出的结果可能并不相同;与此同时,评测工具本身也可能出现误判。另一个重要变量在于,AI Overviews并非完全由单一模型驱动,而是依赖多模型体系运行。Google解释称,系统会根据不同查询类型调用相应模型,在部分场景下还会优先采用兼顾响应速度和成本效率的轻量模型,而不是始终调用性能最高的模型。
这场争议的背后,也折射出搜索呈现方式的变化。与过去以“蓝色链接”为主的搜索结果不同,摘要式AI回答如今被置于页面顶部,用户更可能直接接受系统给出的结论,一旦答案出错,影响也会随之放大。Google目前也在AI Overviews底部加入提示,提醒用户“AI可能会出错,请核实相关信息”。