围绕2026年世界杯冠军归属,7款AI模型给出了两种主流判断:西班牙和阿根廷。
区块链媒体Decrypt 6月8日(当地时间)报道称,其对7款AI模型进行测试后发现,其中4款模型预测西班牙夺冠,另有3款更看好阿根廷。虽然所有模型都将西班牙、阿根廷和法国列入争冠第一梯队,但在最终冠军判断上仍出现分歧。
参与测试的模型包括Anthropic的Opus 4.8 Max、OpenAI的GPT-5.5、DeepSeek v4 Pro、StepFun 3.7、NVIDIA的Nemotron 3 Ultra、MiniMax 2.7以及Qwen 3.5。测试向各模型提供了相同信息,包括48支参赛球队、12个小组及完整的淘汰赛对阵表,至于具体如何预测,则由模型自行决定。
看好西班牙夺冠的分别是Opus 4.8 Max、GPT-5.5、StepFun 3.7和Nemotron 3 Ultra。其中,StepFun 3.7基于5万次模拟,给出西班牙33%的夺冠概率;Opus 4.8 Max预测西班牙将在决赛中击败法国夺冠;GPT-5.5则综合阵容实力、战术体系、终结能力、可用球员以及签表等因素,判断西班牙胜算更高。
倾向阿根廷的模型则包括DeepSeek v4 Pro、MiniMax 2.7和Qwen 3.5。DeepSeek v4 Pro基于定性分析,预测阿根廷与法国会师决赛;MiniMax 2.7也给出了阿根廷和法国进入决赛的情景,但未明确最终冠军归属;Qwen 3.5则将事实、推测和前景预测分开呈现,并把阿根廷列为最有力的夺冠候选。
报道指出,模型之间出现分歧,关键不在于对球队实力的基本判断,而在于采用哪些数据作为主要依据。更强调Elo评分、且注意到西班牙排名第一的模型,更倾向于选择西班牙;而更看重国际足联(FIFA)排名以及2022年世界杯成绩的模型,则更偏向阿根廷。
从分析路径看,各模型所采用的方法也不相同。Opus 4.8 Max使用了Dixon-Coles模型和蒙特卡洛模拟,并纳入高温、高海拔、长距离移动等比赛环境因素;GPT-5.5以区间形式给出夺冠概率;StepFun 3.7则反复进行基于Elo评分的模拟,认为西班牙夺冠可能性最高。
测试同时也暴露出部分模型在数据时效性和基础信息准确性上的问题。例如,DeepSeek v4 Pro使用的部分主教练信息和排名数据较为陈旧,Qwen 3.5则在小组分组信息上出现错误。即便面对同一份对阵表,模型依赖哪些资料、如何进行验证,不仅会影响预测结果,也会影响出错概率。
从预测市场定价来看,市场判断与AI模型的主流意见大体接近。DasTani运营的预测市场Myriad数据显示,截至6月7日,西班牙以19%的概率位居第一,法国以17%排名第二,阿根廷为10%,低于部分AI模型给出的判断。
这项测试表明,AI在体育赛事预测中并不会给出唯一答案。不同的数据来源和评估指标,往往会导向不同结论。7款模型虽然一致将西班牙、阿根廷和法国视为争冠热门,但在Elo评分、FIFA排名、历史成绩、签表运气及环境因素等权重分配上存在差异,因此对冠军归属的判断也随之分化。
报道还指出,AI在体育预测中的竞争力,或许不只体现在是否押中冠军,更体现在结论依据是否清晰、数据错误能否减少,以及对不确定性的呈现是否足够透明。这些因素预计将成为衡量AI预测模型可信度的关键指标。