AI能否替代事实核查,答案或许还是否定的。
事实核查服务Lenz近期对1000条由用户提交的主张进行了测试,分别调用GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search和Sona Pro进行核查。结果显示,超过三分之二的样本在模型之间出现了判定分歧。
海外科技媒体GIGAZINE 6月1日援引Lenz披露的数据报道称,此次测试主要比较多款主流大模型在事实核查任务中的判定一致性。随着AI被越来越多地用于搜索和事实核查场景,不同模型对同一主张给出不同结论的问题,也再次引发关注。
按照测试设定,上述5款模型需从“真实”“大体真实”“可能存在误导”“虚假”四个选项中择一,对每条主张作出判断。
从结果看,1000条主张中,只有328条获得5款模型完全一致的结论;其余672条至少出现一款模型与其他模型判断不同。另有132条样本的分歧尤为明显,模型结论高度分散,连多数意见都未形成。
这意味着,问题并不只是个别模型偶尔出现偏差,而是在不少主张上,不同模型本身就难以形成一致判断。
具体案例也反映出这一点。Lenz公开的一条样本是“乌克兰总统Volodymyr Zelenskyy是否被提名为2026年诺贝尔和平奖候选人”。其中,GPT-5.4和Gemini 3 Pro将其判定为“虚假”,Gemini 3 Pro + Search和Sona Pro则判定为“真实”。最终核实结果显示,Zelenskyy确实被提名为2026年诺贝尔和平奖候选人。
不仅如此,在“某位名人是否说过某句话”、心理学领域的概括性说法,以及世界银行统计数据等相对容易核验的主题上,不同模型之间同样出现了明显分歧。
从判定风格来看,不同模型也存在差异。GPT-5.4、Claude Opus 4.7和Sona Pro更常选择“大体真实”“可能存在误导”等中间选项;相比之下,Gemini 3 Pro及其带搜索版本更倾向于给出“真实”或“虚假”这类更为明确的结论。
也就是说,即便面对同一事实核查任务,模型究竟采取更保守的表述方式,还是倾向于作出二元判断,都会直接影响最终输出结果。
Lenz表示,此次研究的目的并不是评选“最强模型”。该公司称,正针对同一批主张由人工标注标准答案,并以此为基准评估各模型的准确率。同时,揭示模型之间的分歧本身也具有研究价值,后续还将进一步分析哪些类型的主张更容易引发判定差异。
这项测试也暴露出AI搜索和AI事实核查服务的局限。即便是公共数据、人物相关事实等相对客观且可验证的信息,不同模型仍可能给出不同结论,这也意味着用户很难把单一模型的输出直接当作事实依据。测试还显示,具备搜索能力的模型,也未必总能提供更准确或更一致的判断。
业内普遍认为,未来若以人工评估结果作为基准,进一步分析分歧主要集中在哪些类型的主张、哪些模型更容易偏离人工判断,将成为衡量AI事实核查服务可信度的重要依据。
在AI逐步进入事实核查场景的当下,这一案例也说明,至少在现阶段,交叉比对不同模型的结果,并引入人工复核和终审,仍是不可或缺的流程。