DeepSeek, startup AI của Trung Quốc, vừa công bố mô hình mới V4. Với định hướng mã nguồn mở, hiệu năng tiệm cận các mô hình AI hàng đầu nhưng chi phí thấp hơn đáng kể so với Opus 4.7 và GPT-5.5, V4 được giới phân tích nhận định có thể tạo ảnh hưởng còn lớn hơn cả R1, mô hình suy luận mà hãng giới thiệu năm ngoái.
Theo thông tin được công bố, DeepSeek V4 Pro là mô hình mixture-of-experts (MoE) với tổng cộng 1,6 nghìn tỷ tham số, trong đó 49 tỷ tham số được kích hoạt, cùng độ dài ngữ cảnh 1 triệu token. Phiên bản V4 Flash có 284 tỷ tham số, với 13 tỷ tham số được kích hoạt.
Cả hai mô hình đều được huấn luyện trên khoảng 33 nghìn tỷ token. Trong các bài kiểm tra như MMLU Pro, GPQA Diamond và SWE-bench, kết quả của V4 được cho là tiệm cận Opus 4.7 và GPT-5.5.
Matthew Berman, người điều hành kênh YouTube Forward Future, gần đây viết trên mạng xã hội X rằng bài toán chi phí đang khiến các công ty Mỹ nghiêng về DeepSeek. Theo ông, GPT-5.5 và Opus 4.7 hiện có giá khoảng 30 USD cho mỗi 1 triệu token đầu ra, trong khi DeepSeek rẻ hơn nhiều.
Ông cho rằng lợi thế của DeepSeek không chỉ nằm ở giá. Với mô hình mã nguồn mở, doanh nghiệp có thể fine-tuning và tự triển khai theo nhu cầu riêng. Trong bối cảnh phần lớn tác vụ doanh nghiệp không đòi hỏi mô hình mạnh nhất thị trường, động lực chọn một giải pháp “đủ tốt” như DeepSeek là rất lớn.
Dù vậy, rủi ro địa chính trị vẫn là yếu tố cần tính đến. Theo Matthew Berman, nếu doanh nghiệp Mỹ xây dựng chiến lược AI dựa trên mô hình mã nguồn mở từ Trung Quốc, họ có thể đối mặt rủi ro lớn nếu các công ty AI Trung Quốc thay đổi kiến trúc hoặc chặn quyền truy cập.
Ông cũng bày tỏ lo ngại rằng, tương tự cách mạng xã hội khởi phát từ Mỹ và sau đó định hình diễn ngôn toàn cầu, nếu các mô hình Trung Quốc trở thành nền tảng phổ biến, thiên kiến văn hóa Trung Quốc có thể thấm vào các hệ thống AI.
Hiệu quả của các biện pháp kiểm soát xuất khẩu mà chính phủ Mỹ áp lên Trung Quốc hiện vẫn là chủ đề gây tranh cãi. Theo bài báo khoa học do chính DeepSeek công bố, việc mở rộng supernode chỉ diễn ra vào nửa cuối năm nay, khiến năng lực cung cấp dịch vụ của V4 Pro hiện còn hạn chế. Điều này cho thấy các biện pháp kiểm soát xuất khẩu vẫn phát huy hiệu quả nhất định.
Tuy nhiên, cũng có ý kiến cho rằng chính các hạn chế này lại thúc đẩy đổi mới về thuật toán, qua đó giúp xây dựng mô hình với chi phí thấp hơn, ngay cả khi sử dụng GPU chi phí thấp.
Trước đó, các công ty phát triển mô hình AI của Mỹ như Anthropic, cùng với chính phủ Mỹ, từng cảnh báo rằng Trung Quốc đang tiến hành distillation ở quy mô lớn, tức sử dụng đầu ra từ các mô hình AI hiện có làm dữ liệu huấn luyện để tạo mô hình mới.
Matthew Berman cho biết một số phân tích ước tính DeepSeek đã sử dụng khoảng 150 nghìn câu trả lời từ các mô hình AI của Mỹ cho mục đích huấn luyện. Con số này thấp hơn nhiều so với MoonshotAI với 3,4 triệu lượt và MiniMax với 13 triệu lượt, nên khó có thể giải thích toàn bộ mức hiệu năng hiện tại chỉ bằng distillation.
Từ đó, ông đưa ra hai kết luận. Thứ nhất, Mỹ cần đẩy mạnh hơn nữa việc phát triển các mô hình mã nguồn mở. Thứ hai, OpenAI và Anthropic phải giảm giá nhanh hơn. Theo ông, nếu đặt lên bàn cân giữa chi phí và hiệu năng, DeepSeek hiện đang nắm lợi thế rõ rệt.