Nvidia đẩy mạnh kiến trúc rack-scale cho AI factory

CEO của Nvidia Jensen Huang phát biểu tại sự kiện giới thiệu các hệ thống rack-scale. Ảnh: Nvidia

Nvidia cho biết sẽ chuyển trọng tâm chiến lược hạ tầng AI thế hệ mới sang kiến trúc tích hợp ở cấp rack, thay vì chỉ cạnh tranh ở hiệu năng của từng GPU riêng lẻ. Động thái này cho thấy hãng đang tái định vị từ nhà cung cấp chip sang doanh nghiệp thiết kế toàn bộ hạ tầng cho AI factory, qua đó có thể làm thay đổi cách phân bổ đầu tư trong chuỗi cung ứng.

Tại GTC 2026 ở San Jose, Nvidia dự kiến công bố 5 hệ thống rack-scale dựa trên kiến trúc MGX. Trong buổi họp báo ngày 16/3, hãng đã giới thiệu các hệ thống gồm Vera Rubin NVL72, Grok 3 LPX, rack CPU Vera, BlueField4 STX và Spectrum6 SPX, được ghép thành một siêu máy tính AI hoàn chỉnh.

Nvidia mô tả đây là “nền tảng cho phép triển khai hạ tầng lớn nhất trong lịch sử”. Theo hãng, 5 hệ thống rack này được tích hợp trên cùng kiến trúc MGX, trong đó mỗi rack đảm nhiệm một vai trò riêng để xử lý các điểm nghẽn khác nhau trong trung tâm dữ liệu AI. Công ty cũng cho biết 7 dòng chip thuộc thế hệ Rubin đã bước vào giai đoạn sản xuất hàng loạt.

Trọng tâm của chiến lược lần này là xử lý các nút thắt ở khâu context và decode trong trung tâm dữ liệu AI ở cấp hệ thống, thay vì chỉ tối ưu ở cấp chip.

Để làm điều đó, Nvidia đã tích hợp LPU từ thương vụ mua lại Grok vào kiến trúc rack GPU. Rack LPX được trang bị 256 LPU và 128 GB SRAM, đồng thời kết nối với rack Vera Rubin thông qua interconnect chuyên dụng dựa trên SpectrumX. Hai rack phối hợp xử lý quá trình giải mã token của mô hình AI theo từng lớp, trong đó GPU đảm nhiệm tính toán attention, còn LPU xử lý các lớp FFN.

Theo Nvidia, với mô hình 1.000 tỷ tham số, hệ thống này đạt tốc độ 500 token mỗi giây và mức giá dịch vụ 45 USD cho mỗi triệu token, giúp tăng thông lượng lên 35 lần so với trước. Rack LPX dự kiến ra mắt trong nửa cuối năm nay, cùng thời điểm với Vera Rubin.

◆ HBM4 và AI factory có thể mở rộng dư địa tăng trưởng cho chuỗi cung ứng

Sự thay đổi trong cấu trúc hệ thống mà Nvidia vừa công bố cũng tác động trực tiếp đến thị trường bộ nhớ. Hiện Vera Rubin NVL72 được trang bị 288 GB HBM4 cho mỗi GPU, trong khi LPX sử dụng 500 MB SRAM nên không cạnh tranh trực tiếp với HBM.

Ở chiều ngược lại, khi rack GPU tập trung vào khối lượng tính toán attention có giá trị gia tăng cao, mật độ HBM4 trên toàn nền tảng Rubin được dự báo sẽ cao hơn thế hệ trước. Xu hướng tăng dung lượng HBM trên mỗi GPU của Nvidia nhiều khả năng sẽ tiếp tục ở thế hệ Rubin.

Giới phân tích nhận định các công bố tại GTC năm nay có thể trở thành bước ngoặt mới trong đầu tư hạ tầng AI. Nếu mô hình thiết kế tích hợp theo đơn vị rack được mở rộng, những doanh nghiệp có năng lực tích hợp hệ thống sẽ hưởng lợi rõ rệt hơn so với mô hình chỉ chạy đua hiệu năng chip.

Đối với các nhà sản xuất bộ nhớ Hàn Quốc, cơ hội trực tiếp nằm ở việc mở rộng đơn hàng HBM4. Cùng với đó, nhu cầu điện năng và thiết bị tăng theo quá trình mở rộng AI factory được cho là sẽ lan tỏa sang các doanh nghiệp vật liệu, linh kiện và thiết bị. Biên độ hưởng lợi của toàn chuỗi cung ứng Nvidia vì thế có thể rộng hơn so với mô hình chỉ cung cấp GPU đơn lẻ.

TrendForce trước đó nhận định nhu cầu chuyển sang HBM3E và HBM4 sẽ tăng nhanh trong năm nay. SK hynix hiện giữ vị trí số một về thị phần HBM, trong khi Samsung Electronics cũng đang chuẩn bị đẩy mạnh nguồn cung HBM4.

◆ Agentic AI thúc đẩy nhu cầu CPU, không chỉ GPU

Bên cạnh GPU, Nvidia cho rằng một nguồn cầu mới đang hình thành từ CPU. Hãng đánh giá khi các khối lượng công việc AI dựa trên tác tử ngày càng phổ biến, tải xử lý trên CPU sẽ tăng mạnh trong các tác vụ gọi công cụ như biên dịch mã, truy vấn SQL hay chạy Python. Để đáp ứng nhu cầu này, Nvidia đã đưa CPU tự thiết kế mang tên Vera vào nền tảng Rubin.

Vera sử dụng kiến trúc lõi mới mang tên Olympus Core, được tối ưu cho thực thi AI. Theo Nvidia, băng thông bộ nhớ trên mỗi lõi của Vera cao gấp ba lần so với x86, hiệu suất năng lượng gấp hai lần và hiệu năng đơn luồng cao hơn 1,5 lần. Một rack CPU Vera tích hợp 256 CPU Vera, 400 TB bộ nhớ và băng thông bộ nhớ 300 TB mỗi giây. Hãng cho biết trong bài kiểm thử OpenDC FPF của Meta, Vera đạt hiệu năng gấp đôi thế hệ trước là Grace.

Nvidia nhận định sự gia tăng của agentic AI sẽ làm thay đổi cấu hình tính toán bên trong AI factory. Hãng cũng dự kiến công bố nền tảng Rubin DSX, cho phép triển khai thêm 30% tài nguyên tính toán AI trong điều kiện công suất điện không đổi. Khi nhu cầu tối ưu vận hành AI factory tăng lên, thị trường thiết bị điện và làm mát liên quan cũng được dự báo bước vào một chu kỳ tăng trưởng dài hạn. Nvidia cho biết nền tảng lần này được phát triển cùng hơn 200 đối tác hạ tầng dữ liệu.

Dae-geon Seok d2dg@d-today.co.kr

Nvidia đẩy mạnh kiến trúc rack-scale cho AI factory

Ra mắt 5 hệ thống MGX, kết hợp GPU và LPU để xử lý nút thắt suy luận AI

Đang tạo...

Tóm tắt AI

Tại GTC 2026, Nvidia giới thiệu 5 hệ thống rack-scale dựa trên MGX, mở rộng chiến lược từ bán chip sang xây dựng hạ tầng AI factory, đồng thời kéo theo nhu cầu mới với HBM4 và CPU.

Từ khóa