Nvidia: Cuộc đua chip AI sẽ chuyển sang hiệu quả toàn hệ thống

Bryan Catanzaro, Phó chủ tịch mảng nghiên cứu deep learning ứng dụng tại Nvidia. Ảnh: Seok Dae-geon

Nvidia ngày 21/4 cho biết cuộc cạnh tranh trong thị trường chip AI đang dịch chuyển từ thông số của từng con chip sang hiệu quả đầu cuối của toàn bộ hệ thống. Cùng với đó, hãng lần đầu công bố số liệu thực tế cho thấy nền tảng GPU Blackwell cho tốc độ suy luận với mô hình hỗn hợp chuyên gia (MoE) cao gấp 55 lần thế hệ Hopper.

Phát biểu tại sự kiện “Nemotron Developer Days Seoul 2026” ở Seoul, Bryan Catanzaro, Phó chủ tịch mảng nghiên cứu deep learning ứng dụng tại Nvidia, nhấn mạnh “Compute is intelligence”, đồng thời nói rằng “một mô hình nhanh hơn cũng là một mô hình thông minh hơn”.

Theo ông, lợi thế cạnh tranh của AI trong tương lai sẽ không nằm ở hiệu năng của một chip riêng lẻ, mà ở hiệu quả của toàn hệ thống xuyên suốt 4 giai đoạn gồm tiền huấn luyện, hậu huấn luyện, suy luận và AI agent.

Điểm đáng chú ý nhất trong các số liệu lần này là hiệu năng suy luận MoE của Blackwell. Catanzaro cho biết tại GTC, Jensen Huang từng nói Blackwell sẽ nhanh hơn Hopper 30 lần, nhưng kết quả đo gần đây cho thấy mức tăng thực tế lên tới 55 lần.

Ông lý giải chênh lệch này xuất phát từ việc Nvidia xác định nút thắt của mô hình MoE không nằm ở năng lực tính toán, mà ở khả năng kết nối giữa các GPU. Từ nhận định đó, hãng đã phát triển từ nhiều năm trước bộ chuyển mạch NVL72 với độ trễ thấp và băng thông cao để tối ưu giao tiếp GPU.

Ở tầng tính toán, Blackwell cũng được bổ sung định dạng mới NDFP4, sử dụng 4,75 bit cho mỗi giá trị. Catanzaro cho biết các mô hình Nemotron 3 Super và Ultra đang trong quá trình phát triển hiện được tiền huấn luyện hoàn toàn bằng phép toán 4 bit, đồng thời nhấn mạnh việc xây dựng một mô hình đẳng cấp thế giới với mức độ chính xác thấp như vậy là thách thức rất lớn.

Về phần mềm, Nvidia cho biết bộ dữ liệu tiền huấn luyện mới nhất đã giúp rút ngắn thời gian huấn luyện xuống còn một phần tư so với phiên bản trước, trong cùng điều kiện phần cứng. Với kỹ thuật hậu huấn luyện PivotLM, hãng tập trung ngân sách rollout vào các điểm phân nhánh quan trọng trong quá trình suy luận, qua đó cải thiện hiệu quả hậu huấn luyện khoảng 5 lần, theo Catanzaro.

Nvidia cũng công bố dự án hậu huấn luyện theo chương trình học mang tên Nemotron Cascade. Khi áp dụng cho mô hình Nemotron 3 Nano 30 tỷ tham số, hệ thống đạt mức hiệu năng tương đương “huy chương vàng” tại vòng chung kết các kỳ thi quốc tế năm 2025 gồm International Mathematical Olympiad (IMO), International Olympiad in Informatics (IOI) và International Collegiate Programming Contest (ICPC).

Theo Nvidia, trong nhóm mô hình mã nguồn mở, chỉ có mô hình 671 tỷ tham số của 01.AI đạt cùng cấp độ, qua đó cho thấy chênh lệch lớn về hiệu quả xét theo số lượng tham số.

Tại Hàn Quốc, Nvidia cũng đang mở rộng hợp tác với các doanh nghiệp AI như Krafton, LG, Naver và SK Telecom trong quá trình phát triển dựa trên Nemotron. Tại sự kiện, hãng đồng thời giới thiệu Nemotron Persona Korea, bộ dữ liệu tổng hợp chuyên biệt cho tiếng Hàn gồm 7 triệu persona được tạo hoàn toàn từ dữ liệu thống kê về dân số, ngôn ngữ và văn hóa Hàn Quốc, đồng thời không chứa thông tin nhận dạng cá nhân (PII).

Dae-geon Seok d2dg@d-today.co.kr

Nvidia: Cuộc đua chip AI sẽ chuyển sang hiệu quả toàn hệ thống

Blackwell đạt tốc độ suy luận MoE cao gấp 55 lần Hopper

Đang tạo...

Tóm tắt AI

Nvidia cho rằng cạnh tranh trong lĩnh vực chip AI sẽ không còn xoay quanh thông số phần cứng đơn lẻ mà chuyển sang hiệu quả toàn hệ thống, đồng thời công bố Blackwell cho tốc độ suy luận MoE cao gấp 55 lần Hopper.

Từ khóa