Lenz实测5款大模型：1000条主张中67%判定出现分歧

测试显示，即便是最新AI模型，对同一主张的事实核查结论也可能并不一致。（图片来源：Shutterstock）

AI能否替代事实核查，答案或许还是否定的。

事实核查服务Lenz近期对1000条由用户提交的主张进行了测试，分别调用GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search和Sona Pro进行核查。结果显示，超过三分之二的样本在模型之间出现了判定分歧。

海外科技媒体GIGAZINE 6月1日援引Lenz披露的数据报道称，此次测试主要比较多款主流大模型在事实核查任务中的判定一致性。随着AI被越来越多地用于搜索和事实核查场景，不同模型对同一主张给出不同结论的问题，也再次引发关注。

按照测试设定，上述5款模型需从“真实”“大体真实”“可能存在误导”“虚假”四个选项中择一，对每条主张作出判断。

从结果看，1000条主张中，只有328条获得5款模型完全一致的结论；其余672条至少出现一款模型与其他模型判断不同。另有132条样本的分歧尤为明显，模型结论高度分散，连多数意见都未形成。

这意味着，问题并不只是个别模型偶尔出现偏差，而是在不少主张上，不同模型本身就难以形成一致判断。

具体案例也反映出这一点。Lenz公开的一条样本是“乌克兰总统Volodymyr Zelenskyy是否被提名为2026年诺贝尔和平奖候选人”。其中，GPT-5.4和Gemini 3 Pro将其判定为“虚假”，Gemini 3 Pro + Search和Sona Pro则判定为“真实”。最终核实结果显示，Zelenskyy确实被提名为2026年诺贝尔和平奖候选人。

不仅如此，在“某位名人是否说过某句话”、心理学领域的概括性说法，以及世界银行统计数据等相对容易核验的主题上，不同模型之间同样出现了明显分歧。

从判定风格来看，不同模型也存在差异。GPT-5.4、Claude Opus 4.7和Sona Pro更常选择“大体真实”“可能存在误导”等中间选项；相比之下，Gemini 3 Pro及其带搜索版本更倾向于给出“真实”或“虚假”这类更为明确的结论。

也就是说，即便面对同一事实核查任务，模型究竟采取更保守的表述方式，还是倾向于作出二元判断，都会直接影响最终输出结果。

Lenz表示，此次研究的目的并不是评选“最强模型”。该公司称，正针对同一批主张由人工标注标准答案，并以此为基准评估各模型的准确率。同时，揭示模型之间的分歧本身也具有研究价值，后续还将进一步分析哪些类型的主张更容易引发判定差异。

这项测试也暴露出AI搜索和AI事实核查服务的局限。即便是公共数据、人物相关事实等相对客观且可验证的信息，不同模型仍可能给出不同结论，这也意味着用户很难把单一模型的输出直接当作事实依据。测试还显示，具备搜索能力的模型，也未必总能提供更准确或更一致的判断。

业内普遍认为，未来若以人工评估结果作为基准，进一步分析分歧主要集中在哪些类型的主张、哪些模型更容易偏离人工判断，将成为衡量AI事实核查服务可信度的重要依据。

在AI逐步进入事实核查场景的当下，这一案例也说明，至少在现阶段，交叉比对不同模型的结果，并引入人工复核和终审，仍是不可或缺的流程。

Jinju Hong hongjj@d-today.co.kr

关键词