测试显示,即便是最新AI模型,对同一主张的事实核查结论也可能并不一致。(图片来源:Shutterstock)

AI能否替代事实核查,答案或许还是否定的。

事实核查服务Lenz近期对1000条由用户提交的主张进行了测试,分别调用GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search和Sona Pro进行核查。结果显示,超过三分之二的样本在模型之间出现了判定分歧。

海外科技媒体GIGAZINE 6月1日援引Lenz披露的数据报道称,此次测试主要比较多款主流大模型在事实核查任务中的判定一致性。随着AI被越来越多地用于搜索和事实核查场景,不同模型对同一主张给出不同结论的问题,也再次引发关注。

按照测试设定,上述5款模型需从“真实”“大体真实”“可能存在误导”“虚假”四个选项中择一,对每条主张作出判断。

从结果看,1000条主张中,只有328条获得5款模型完全一致的结论;其余672条至少出现一款模型与其他模型判断不同。另有132条样本的分歧尤为明显,模型结论高度分散,连多数意见都未形成。

这意味着,问题并不只是个别模型偶尔出现偏差,而是在不少主张上,不同模型本身就难以形成一致判断。

具体案例也反映出这一点。Lenz公开的一条样本是“乌克兰总统Volodymyr Zelenskyy是否被提名为2026年诺贝尔和平奖候选人”。其中,GPT-5.4和Gemini 3 Pro将其判定为“虚假”,Gemini 3 Pro + Search和Sona Pro则判定为“真实”。最终核实结果显示,Zelenskyy确实被提名为2026年诺贝尔和平奖候选人。

不仅如此,在“某位名人是否说过某句话”、心理学领域的概括性说法,以及世界银行统计数据等相对容易核验的主题上,不同模型之间同样出现了明显分歧。

从判定风格来看,不同模型也存在差异。GPT-5.4、Claude Opus 4.7和Sona Pro更常选择“大体真实”“可能存在误导”等中间选项;相比之下,Gemini 3 Pro及其带搜索版本更倾向于给出“真实”或“虚假”这类更为明确的结论。

也就是说,即便面对同一事实核查任务,模型究竟采取更保守的表述方式,还是倾向于作出二元判断,都会直接影响最终输出结果。

Lenz表示,此次研究的目的并不是评选“最强模型”。该公司称,正针对同一批主张由人工标注标准答案,并以此为基准评估各模型的准确率。同时,揭示模型之间的分歧本身也具有研究价值,后续还将进一步分析哪些类型的主张更容易引发判定差异。

这项测试也暴露出AI搜索和AI事实核查服务的局限。即便是公共数据、人物相关事实等相对客观且可验证的信息,不同模型仍可能给出不同结论,这也意味着用户很难把单一模型的输出直接当作事实依据。测试还显示,具备搜索能力的模型,也未必总能提供更准确或更一致的判断。

业内普遍认为,未来若以人工评估结果作为基准,进一步分析分歧主要集中在哪些类型的主张、哪些模型更容易偏离人工判断,将成为衡量AI事实核查服务可信度的重要依据。

在AI逐步进入事实核查场景的当下,这一案例也说明,至少在现阶段,交叉比对不同模型的结果,并引入人工复核和终审,仍是不可或缺的流程。

关键词

#事实核查 #大模型 #Lenz #GPT-5.4 #Claude Opus 4.7 #Gemini 3 Pro #搜索能力 #判定一致性
版权所有 © DigitalToday。未经授权禁止转载或传播。