Thử nghiệm với 7 mô hình trí tuệ nhân tạo cho thấy dự báo về nhà vô địch World Cup 2026 đang chia thành hai nhóm chính: 4 mô hình chọn Tây Ban Nha, trong khi 3 mô hình nghiêng về Argentina.
Theo Decrypt, ngày 8/6 (giờ địa phương), cả 7 mô hình AI tham gia thử nghiệm đều xếp Tây Ban Nha, Argentina và Pháp vào nhóm ứng viên hàng đầu. Tuy nhiên, kết luận cuối cùng về đội có khả năng đăng quang lại không giống nhau.
Các mô hình được đưa vào thử nghiệm gồm Opus 4.8 Max của Anthropic, GPT-5.5 của OpenAI, DeepSeek v4 Pro, StepFun 3.7, Nemotron 3 Ultra của Nvidia, MiniMax 2.7 và Qwen 3.5. Tất cả cùng nhận một bộ dữ liệu đầu vào gồm 48 đội tuyển, 12 bảng đấu và toàn bộ nhánh knock-out, nhưng mỗi mô hình tự chọn phương pháp dự báo.
Nhóm chọn Tây Ban Nha gồm Opus 4.8 Max, GPT-5.5, StepFun 3.7 và Nemotron 3 Ultra. Trong đó, StepFun 3.7 chạy 50.000 lần mô phỏng và đưa ra xác suất vô địch 33% cho Tây Ban Nha. Opus 4.8 Max dự báo Tây Ban Nha sẽ thắng Pháp ở trận chung kết. GPT-5.5 cũng nghiêng về đội bóng này sau khi tổng hợp các yếu tố như chất lượng đội hình, chiến thuật, khả năng dứt điểm, lực lượng sẵn sàng thi đấu và nhánh đấu.
Ở chiều ngược lại, DeepSeek v4 Pro, MiniMax 2.7 và Qwen 3.5 đánh giá Argentina là ứng viên sáng giá nhất. DeepSeek v4 Pro dựa trên phân tích định tính và dự báo một trận chung kết giữa Argentina và Pháp. MiniMax 2.7 cũng đưa ra kịch bản tương tự, nhưng không chỉ rõ đội chiến thắng. Qwen 3.5 phân tách dữ liệu, giả định và kết luận dự báo trước khi xếp Argentina vào vị trí dẫn đầu.
Theo bài viết, khác biệt lớn nhất không nằm ở cách nhìn nhận sức mạnh chuyên môn, mà ở bộ dữ liệu và trọng số mà từng mô hình sử dụng. Những mô hình ưu tiên bảng xếp hạng ELO theo thời gian thực, nơi Tây Ban Nha đang đứng số 1, phần lớn chọn Tây Ban Nha. Trong khi đó, các mô hình đặt nặng thứ hạng FIFA và thành tích tại World Cup 2022 lại nghiêng về Argentina.
Cách tiếp cận kỹ thuật của các mô hình cũng không giống nhau. Opus 4.8 Max sử dụng mô hình Dixon-Coles kết hợp mô phỏng Monte Carlo, đồng thời đưa vào các biến số như nắng nóng, thi đấu ở độ cao lớn và quãng đường di chuyển dài. GPT-5.5 đưa ra xác suất vô địch theo khoảng ước tính, còn StepFun 3.7 lặp mô phỏng dựa trên ELO và đánh giá Tây Ban Nha có cơ hội cao nhất.
Một số mô hình cũng bộc lộ hạn chế về dữ liệu và kiểm chứng. DeepSeek v4 Pro sử dụng một phần thông tin huấn luyện viên cùng dữ liệu xếp hạng đã cũ, trong khi Qwen 3.5 mắc lỗi ở bước chia bảng. Điều này cho thấy ngay cả khi cùng nhận một nhánh đấu, độ tin cậy của dữ liệu đầu vào và khả năng tự kiểm tra kết quả vẫn có thể làm thay đổi dự báo, đồng thời làm tăng rủi ro sai số.
Thị trường dự đoán cũng cho thấy xu hướng tương tự với phần lớn các mô hình AI. Trên Myriad, nền tảng dự đoán do Dastan vận hành, tính đến ngày 7/6, Tây Ban Nha dẫn đầu với 19%, tiếp theo là Pháp với 17%. Argentina được định giá ở mức 10%, thấp hơn xác suất mà một số mô hình AI đưa ra.
Kết quả thử nghiệm cho thấy AI chưa tạo ra một đáp án thống nhất cho bài toán dự báo World Cup 2026. Dù cả 7 mô hình đều xem Tây Ban Nha, Argentina và Pháp là ba ứng viên nổi bật, lựa chọn cuối cùng vẫn phụ thuộc vào việc mô hình ưu tiên ELO, xếp hạng FIFA, thành tích quá khứ, nhánh đấu hay các biến số môi trường.
Theo đó, năng lực của AI trong dự báo thể thao có thể không chỉ được đo bằng việc chọn đúng nhà vô địch. Mức độ minh bạch trong lập luận, khả năng giảm lỗi dữ liệu và cách thể hiện độ bất định mới là những yếu tố có thể quyết định độ tin cậy của các mô hình dự báo trong thời gian tới.