Ngày 12/5, Trung tâm Tiêu chuẩn và Đổi mới AI (CAISI) thuộc Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) công bố báo cáo đánh giá cho thấy DeepSeek V4 Pro hiện là mô hình AI có hiệu năng cao nhất Trung Quốc, nhưng vẫn chậm khoảng 8 tháng so với các mô hình AI hàng đầu mới nhất của Mỹ.
Theo Gizmag, CAISI đã đánh giá DeepSeek V4 Pro trên 5 lĩnh vực thông qua 9 bài benchmark. Kết quả cho thấy mô hình này, dù được công bố với trọng số mở, vẫn đi sau khoảng 8 tháng so với nhóm AI tiên tiến nhất của Mỹ về hiệu năng tổng thể.
Dù ra mắt vào tháng 4/2026, DeepSeek V4 Pro được CAISI xác định có hiệu năng tương đương GPT-5, mẫu do OpenAI phát hành từ tháng 8/2025.
Tuy nhiên, khi đặt cạnh các đối thủ trong nước, khoảng cách lại khá rõ. DeepSeek V4 Pro đạt điểm cao hơn khoảng 200 điểm so với Kimi K2.5, mô hình trước đó từng được nhắc đến như ứng viên có điểm số cao nhất trong nhóm AI Trung Quốc.
Theo CAISI, mức chênh 200 điểm trong tổng điểm của 5 lĩnh vực đồng nghĩa khả năng giải quyết một tác vụ cụ thể có thể cao gấp ba lần.
Đợt đánh giá được thực hiện trên 5 lĩnh vực gồm an ninh mạng, kỹ thuật phần mềm, khoa học tự nhiên, suy luận trừu tượng và toán học.
Chín bài kiểm tra bao gồm CTF-Archive-Diamond, dùng để đánh giá năng lực tấn công vào hệ thống; SWE-Bench Verified về khả năng lập trình; FrontierScience về suy luận khoa học ở cấp độ nghiên cứu; ARC-AGI-2 semi-private về suy luận trừu tượng; và OTIS-AIME-2025 về suy luận toán học, cùng một số bài kiểm tra khác.
Ngoài hiệu năng, CAISI cho rằng điểm mạnh của DeepSeek V4 Pro nằm ở chi phí. Cơ quan này đánh giá mô hình có hiệu quả chi phí tốt hơn các hệ thống AI khác có cùng mặt bằng hiệu năng.
Ngay cả khi so với GPT-5.4 mini của OpenAI, mô hình được xem là có hiệu quả chi phí cao nhất trong nhóm AI Mỹ, DeepSeek V4 Pro vẫn vượt trội ở 5 trong 7 benchmark. Tính chung, CAISI ghi nhận hiệu quả chi phí của DeepSeek V4 Pro cao hơn khoảng 41-53% so với GPT-5.4 mini.
Báo cáo cho rằng cấu trúc giá là nền tảng chính tạo nên lợi thế này. Theo tài liệu dành cho nhà phát triển, DeepSeek V4 Pro có giá token đầu vào 1,74 USD cho mỗi 1 triệu token nếu không dùng cache và 0,0145 USD nếu dùng cache. Giá token đầu ra là 3,48 USD.
Trong khi đó, với GPT-5.4 mini, giá token đầu vào là 0,75 USD khi không dùng cache và 0,075 USD khi dùng cache. Giá token đầu ra ở mức 4,5 USD.
Báo cáo cũng cho thấy chênh lệch giữa tuyên bố của DeepSeek và kết quả đánh giá độc lập. Trước đó, DeepSeek giới thiệu DeepSeek V4 Pro có năng lực tương đương Claude Opus 4.6 và GPT-5.4, nhưng kết quả đo của CAISI cho thấy mô hình này chỉ tương đương GPT-5.
CAISI cho biết một số benchmark đã bị loại khỏi phần so sánh hiệu quả chi phí. Cụ thể, PortBench hiện chưa được phương pháp so sánh chi phí của cơ quan này hỗ trợ, còn ARC-AGI-2 phát sinh sự cố kỹ thuật trong quá trình đánh giá GPT-5.4 mini.
Vì vậy, phần so sánh hiệu quả chi phí lần này chỉ dựa trên 7 benchmark, thay vì đầy đủ 9 bài kiểm tra.
DeepSeek công bố dòng mô hình DeepSeek V4 vào cuối tháng 4/2026. Trong đó, DeepSeek V4 Pro là phiên bản cao cấp với tổng cộng 1.600 tỷ tham số.
Kết quả đánh giá cho thấy AI Trung Quốc vẫn chưa bắt kịp hoàn toàn nhóm dẫn đầu của Mỹ về hiệu năng. Dù vậy, các mô hình như DeepSeek V4 Pro đang gia tăng sức hiện diện nhờ chiến lược mở trọng số và lợi thế chi phí.