NVIDIA：AI芯片竞争转向端到端效率，Blackwell在MoE推理中较上一代Hopper快55倍

Bryan Catanzaro，NVIDIA应用深度学习研究副总裁。图片来源：Dae-geon Seok

NVIDIA表示，AI芯片竞争的重心正从单一规格比拼转向端到端效率。公司首次披露的实测数据显示，基于Blackwell架构的GPU在混合专家（MoE）推理中的速度较上一代Hopper提升55倍。

4月21日，在首尔举行的“NemoTron Developer Days Seoul 2026”活动上，NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示，“Compute is intelligence”，模型运行得越快，系统整体也就越智能。他指出，未来AI优势不再取决于单颗芯片的性能参数，而在于能否在预训练、后训练、推理以及Agent应用等环节实现整体效率最优。

从具体指标来看，Blackwell的MoE推理性能成为现场关注焦点。Bryan Catanzaro表示，Jensen Huang此前在GTC上曾提到，Blackwell相较Hopper可实现30倍性能提升；而NVIDIA最新披露的实测结果显示，在MoE推理场景下，这一增幅达到55倍。

他解释称，MoE模型的瓶颈并不完全在算力本身，更关键的是互连能力。为此，NVIDIA数年前便开始布局低时延、高带宽的GPU互连方案NVL72，这也成为Blackwell拉开性能差距的重要原因之一。

除硬件外，NVIDIA也在数值计算层面推进效率优化。Blackwell引入了新的数值格式“NDFP4”，单个数值占用4.75比特。Bryan Catanzaro表示，正在开发中的NemoTron 3 Super·Ultra已经仅使用4比特算术运算进行预训练，并称“用如此低精度的数值训练世界级模型，本身就是极具挑战的工作”。

在软件层面，NVIDIA同样强调效率提升。公司表示，最新预训练数据集在相同硬件条件下，可将训练时间缩短至上一版本的四分之一。后训练技术“PivotLM”则通过将rollout预算集中投向模型推理路径中的关键分叉节点，将后训练效率提升约5倍。

与此同时，NVIDIA还公布了基于课程学习的后训练项目“NemoTron Cascade”。在300亿（30B）参数的NemoTron 3 Nano模型上应用该方法后，模型在2025年国际数学奥林匹克（IMO）、国际信息学奥林匹克（IOI）和国际大学生程序设计竞赛（ICPC）世界总决赛相关测试中达到金牌水平。

按照NVIDIA的说法，在开源模型中，达到同等水平的仅有01.AI的约6710亿（671B）参数模型，参数规模差异也进一步凸显了其效率优势。

在韩国本土合作方面，NVIDIA表示，Krafton、LG、Naver、SK Telecom等韩国AI企业正基于NemoTron开展相关开发。活动期间，公司还发布了面向韩语的合成数据集“NemoTron Persona Korea”。该数据集依据韩国人口、语言和文化统计信息生成，包含700万个完全合成的Persona，不含个人可识别信息（PII）。

Dae-geon Seok d2dg@d-today.co.kr

关键词