Nvidia vẽ lại cục diện AI tại GTC 2026

Mô hình AI Grid do Nvidia giới thiệu. Ảnh: Nvidia

Tại GTC 2026, Nvidia công bố loạt nền tảng mới trải rộng từ chip, rack, hệ điều hành cho suy luận AI, framework cho agentic AI đến pipeline dữ liệu robot. Xuyên suốt các công bố này là ba thay đổi lớn: chi phí tính toán AI giảm mạnh, phần mềm trở thành lớp tạo doanh thu quan trọng hơn và AI bắt đầu mở rộng từ trung tâm dữ liệu sang nhà máy, bệnh viện và hạ tầng giao thông.

Ba chỉ dấu đáng chú ý nhất tại sự kiện gồm Vera Rubin với chi phí mỗi token giảm còn 1/10, Groq 3 LPX giúp thông lượng suy luận tăng 35 lần và thị trường physical AI được Nvidia định giá ở mức 100.000 tỷ USD. Những thay đổi này cho thấy hãng đang tìm cách tái định hình đồng thời thị trường bán dẫn, phần mềm và sản xuất công nghiệp.

Vera Rubin mở đầu chu kỳ AI chi phí thấp hơn

Tại GTC 2026, Nvidia giới thiệu dày đặc các nền tảng thế hệ mới xoay quanh kiến trúc rack-scale mang tên Vera Rubin. Hệ thống này hợp nhất 7 loại chip và 5 loại rack thành một siêu máy tính AI, cho phép huấn luyện mô hình MoE quy mô lớn với số lượng GPU chỉ bằng 1/4 so với Blackwell. Theo Nvidia, chi phí mỗi token giảm 10 lần, trong khi thông lượng suy luận trên mỗi watt tăng tối đa 10 lần. Điều đó cũng cho thấy cạnh tranh không còn chỉ nằm ở GPU đơn lẻ mà dịch chuyển sang thiết kế tích hợp ở cấp độ rack.

Vera CPU cũng thu hút chú ý khi được trang bị 88 lõi Olympus do Nvidia tự thiết kế, cùng băng thông tối đa 1,2 TB/s dựa trên LPDDR5X. Hãng cho biết cấu hình này đạt băng thông gấp đôi và mức tiêu thụ điện chỉ bằng một nửa so với CPU phổ thông. Alibaba, ByteDance, Meta và CoreWeave là những doanh nghiệp đang thúc đẩy triển khai nền tảng này. CEO Jensen Huang đồng thời hé lộ kiến trúc kế tiếp mang tên Feynman, cùng lộ trình gồm Rosa CPU, LP40 LPU và BlueField-5.

Tốc độ mở rộng hạ tầng phục vụ các nền tảng mới cũng tăng nhanh. Nvidia cho biết các đối tác đám mây đã triển khai tổng cộng hơn 1 triệu GPU tại các AI factory trên toàn cầu. Tổng năng lực xử lý AI hiện vượt 1,7 gigawatt, cao hơn nhiều so với 400.000 GPU và 550 megawatt được công bố tại GTC năm trước. Microsoft Azure trở thành nhà cung cấp đám mây hyperscale đầu tiên vận hành Vera Rubin NVL72.

Các doanh nghiệp Hàn Quốc cũng xuất hiện nổi bật trong chuỗi cung ứng của nền tảng này. Samsung Electronics cho biết CEO Jensen Huang đã ký dòng chữ “AMAZING HBM4” lên wafer HBM4 của hãng tại GTC. Samsung nhấn mạnh đây là doanh nghiệp duy nhất có thể cung cấp trọn bộ nhớ và lưu trữ cho Vera Rubin, gồm HBM4, SOCAMM2 và SSD PM1763. Hãng cũng lần đầu trưng bày chip HBM4E thực, với mục tiêu tốc độ 16 Gbps mỗi pin và băng thông 4,0 TB/s. Trong khi đó, SK hynix đưa Chủ tịch Chey Tae-won và CEO Kwak No-jung tới sự kiện, đồng thời trưng bày HBM4, HBM3E và SOCAMM2 để khẳng định vị thế trong chuỗi cung ứng.

Groq 3 LPX và bài toán kinh tế của suy luận AI

Thay đổi thứ hai tại GTC 2026 là cấu trúc kinh tế mới hình thành khi chi phí suy luận giảm mạnh, với Groq 3 LPX là một trong những nền tảng tiêu biểu. Đây là rack tăng tốc suy luận kết hợp GPU và LPU. Nvidia cho biết với mô hình 1.000 tỷ tham số, hệ thống đạt 500 token/giây với chi phí 45 USD cho mỗi triệu token. Thông lượng theo đó tăng 35 lần so với trước.

Song song với phần cứng, Nvidia cũng đưa ra software stack đi kèm. Dynamo 1.0 được giới thiệu là hệ điều hành phân tán cho AI factory, có thể nâng hiệu năng suy luận trên GPU Blackwell lên tối đa 7 lần. OpenClaw và NemoClaw là các framework dùng để điều phối agentic AI. Theo Nvidia, OpenClaw đã đạt 100.000 sao trên GitHub và thu hút 2 triệu lượt truy cập chỉ trong tuần đầu tiên.

Việc ứng dụng trong doanh nghiệp cũng đang tăng tốc. Tài liệu briefing của Nvidia nêu một số kết quả như Salesforce đã có 18.000 khách hàng sử dụng, CrowdStrike tiết kiệm 40 giờ mỗi tuần và Cisco nâng hiệu quả suy luận thêm 2-3 lần.

Hạ tầng suy luận cũng bắt đầu vượt ra ngoài trung tâm dữ liệu truyền thống. Nvidia công bố DGX Station GB300 với 748 GB bộ nhớ coherent và hiệu năng FP4 tối đa 20 petaflops, cho phép chạy mô hình 1.000 tỷ tham số trên máy tính để bàn.

Cùng với đó, hãng cho biết các nhà mạng lớn như AT&T, T-Mobile, Comcast và Spectrum đang xây dựng AI Grid dựa trên hạ tầng của Nvidia. Mô hình này tận dụng khoảng 100.000 trung tâm dữ liệu mạng phân tán trên toàn cầu và hơn 100 gigawatt điện dự phòng để đưa năng lực suy luận đến gần hơn với người dùng, thiết bị và dữ liệu.

Nvidia cũng nhấn mạnh việc Samsung Foundry 4nm đảm nhiệm sản xuất Groq LPU. Tại sự kiện, CEO Jensen Huang ký dòng chữ “Groq Super FAST” lên wafer 4nm của Samsung Foundry, qua đó cho thấy vai trò ngày càng rõ nét của doanh nghiệp Hàn Quốc trong chuỗi cung ứng phục vụ tăng tốc suy luận AI.

Physical AI mở rộng từ nhà máy đến phòng mổ

Thay đổi thứ ba là AI bắt đầu dịch chuyển từ thế giới số sang môi trường vật lý. Nvidia định giá thị trường physical AI ở mức 100.000 tỷ USD, lớn gấp 50 lần quy mô ngành IT, hiện vào khoảng 2.000 tỷ USD. Công cụ triển khai trọng tâm là Blueprint, được Nvidia mô tả như một “nhà máy dữ liệu” cho physical AI. Nền tảng này tích hợp toàn bộ pipeline từ tạo dữ liệu, mô phỏng, đánh giá đến triển khai, dựa trên Cosmos world model và OSMO orchestrator, và dự kiến được công bố trên GitHub trong tháng 4.

Phạm vi ứng dụng đang mở rộng từ sản xuất và giao thông sang y tế. Theo Nvidia, Hyundai Motor Group đang mở rộng hợp tác ở mảng tự lái cấp 2 trở lên dựa trên Drive Hyperion, đồng thời phát triển robotaxi cấp 4 cùng Motional. Trong lĩnh vực chăm sóc sức khỏe, hãng công bố các nền tảng physical AI chuyên dụng như Open-H, bộ dữ liệu video phẫu thuật dài 776 giờ; Cosmos-H, nền tảng tạo dữ liệu phẫu thuật tổng hợp; và GR00T-H, mô hình chuyển động cho robot phẫu thuật. CMR Surgical và Johnson & Johnson MedTech là các đơn vị đã bắt đầu triển khai.

Ở mảng công nghiệp, HD Hyundai đang sử dụng digital twin dựa trên Omniverse. Samsung Electronics, SK hynix và MediaTek áp dụng công nghệ tăng tốc của Nvidia vào phần mềm EDA nhằm đẩy nhanh quá trình sản xuất DRAM và flash. Theo cách Nvidia mô tả, toàn bộ chu trình từ thiết kế, sản xuất đến y tế đang dần vận hành trên hệ sinh thái CUDA-X.

Tổng thể, GTC 2026 cho thấy một chuỗi phát triển khá rõ: chi phí tính toán giảm giúp agentic AI đạt hiệu quả kinh tế tốt hơn, từ đó thúc đẩy AI thâm nhập sâu hơn vào thế giới vật lý. Trong tiến trình này, các doanh nghiệp Hàn Quốc nổi lên như đối tác quan trọng ở các lớp bộ nhớ, foundry và tự lái, nhưng đồng thời cũng phải đối mặt với áp lực phụ thuộc ngày càng lớn vào nền tảng của Nvidia.

Dae-geon Seok d2dg@d-today.co.kr

Nvidia vẽ lại cục diện AI tại GTC 2026

Vera Rubin giảm chi phí mỗi token 10 lần, Groq 3 LPX tăng thông lượng 35 lần, physical AI mở rộng sang nhà máy và y tế

Đang tạo...

Tóm tắt AI

Tại GTC 2026, Nvidia giới thiệu Vera Rubin, Groq 3 LPX và loạt nền tảng phần mềm mới, qua đó đẩy nhanh xu hướng giảm chi phí suy luận và mở rộng AI sang sản xuất, y tế, giao thông.

Từ khóa