NVIDIA và Google Cloud ngày 23/4 (giờ địa phương) thông báo mở rộng hợp tác trong lĩnh vực AI tác nhân và AI vật lý, đồng thời công bố thêm nhiều hạ tầng và dịch vụ mới tại sự kiện Google Cloud Next.
Điểm nhấn của đợt hợp tác lần này là việc mở rộng Google Cloud AI Hypercomputer với phiên bản A5X bare-metal dành cho doanh nghiệp, được xây dựng trên nền tảng NVIDIA Vera Rubin.
A5X là máy chủ vật lý chuyên dụng, sử dụng hệ thống rack-scale NVIDIA Vera Rubin NVL72. Khác với mô hình máy chủ ảo chia sẻ tài nguyên, phiên bản này cho phép một khách hàng sử dụng riêng toàn bộ tài nguyên phần cứng, phù hợp với các tác vụ huấn luyện, suy luận AI quy mô lớn và mô phỏng hiệu năng cao.
Về khả năng mở rộng, A5X có thể triển khai tối đa 80.000 GPU Vera Rubin tại một địa điểm. Nếu kết nối thành cụm đa địa điểm, quy mô hệ thống có thể tăng lên 960.000 GPU Rubin.
Để đạt quy mô này, NVIDIA kết hợp ConnectX-9 SuperNIC với công nghệ mạng của Google để xây dựng các cụm AI siêu lớn. Theo NVIDIA, đây là hạ tầng hướng đến nhu cầu vận hành theo mô hình “AI factory”.
NVIDIA cũng công bố các chỉ số về hiệu năng và chi phí. Hãng cho biết A5X có thể giảm chi phí suy luận trên mỗi token xuống còn tối đa 1/10 so với thế hệ trước, đồng thời nâng thông lượng trên mỗi watt lên tối đa 10 lần.
Điều này cho phép doanh nghiệp xử lý nhiều khối lượng công việc AI hơn trên cùng một hạ tầng hoặc tiết giảm đáng kể chi phí vận hành.
Phạm vi hợp tác giữa hai bên không chỉ dừng ở hạ tầng máy chủ. Google cũng đang chuẩn bị bản preview của Gemini trên nền tảng Google Distributed Cloud, chạy trên GPU NVIDIA Blackwell và Blackwell Ultra.
Ngoài ra, hai bên dự kiến cung cấp máy ảo bảo mật tích hợp GPU NVIDIA Blackwell.
Trong mảng AI tác nhân, NVIDIA Nemotron và framework NVIDIA NeMo sẽ được tích hợp vào nền tảng AI doanh nghiệp của Google, hỗ trợ suy luận đa phương thức, xử lý dữ liệu quy mô lớn, cũng như mô phỏng robot và AI vật lý.
Động thái này cho thấy cuộc cạnh tranh trong hạ tầng AI đang dịch chuyển từ hiệu năng của từng GPU sang năng lực xây dựng cụm siêu lớn, tối ưu điện năng, tích hợp mạng và khả năng kết nối với nền tảng AI doanh nghiệp.