NVIDIA表示,AI芯片竞争的重心正从单一规格比拼转向端到端效率。公司首次披露的实测数据显示,基于Blackwell架构的GPU在混合专家(MoE)推理中的速度较上一代Hopper提升55倍。
4月21日,在首尔举行的“NemoTron Developer Days Seoul 2026”活动上,NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示,“Compute is intelligence”,模型运行得越快,系统整体也就越智能。他指出,未来AI优势不再取决于单颗芯片的性能参数,而在于能否在预训练、后训练、推理以及Agent应用等环节实现整体效率最优。
从具体指标来看,Blackwell的MoE推理性能成为现场关注焦点。Bryan Catanzaro表示,Jensen Huang此前在GTC上曾提到,Blackwell相较Hopper可实现30倍性能提升;而NVIDIA最新披露的实测结果显示,在MoE推理场景下,这一增幅达到55倍。
他解释称,MoE模型的瓶颈并不完全在算力本身,更关键的是互连能力。为此,NVIDIA数年前便开始布局低时延、高带宽的GPU互连方案NVL72,这也成为Blackwell拉开性能差距的重要原因之一。
除硬件外,NVIDIA也在数值计算层面推进效率优化。Blackwell引入了新的数值格式“NDFP4”,单个数值占用4.75比特。Bryan Catanzaro表示,正在开发中的NemoTron 3 Super·Ultra已经仅使用4比特算术运算进行预训练,并称“用如此低精度的数值训练世界级模型,本身就是极具挑战的工作”。
在软件层面,NVIDIA同样强调效率提升。公司表示,最新预训练数据集在相同硬件条件下,可将训练时间缩短至上一版本的四分之一。后训练技术“PivotLM”则通过将rollout预算集中投向模型推理路径中的关键分叉节点,将后训练效率提升约5倍。
与此同时,NVIDIA还公布了基于课程学习的后训练项目“NemoTron Cascade”。在300亿(30B)参数的NemoTron 3 Nano模型上应用该方法后,模型在2025年国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)和国际大学生程序设计竞赛(ICPC)世界总决赛相关测试中达到金牌水平。
按照NVIDIA的说法,在开源模型中,达到同等水平的仅有01.AI的约6710亿(671B)参数模型,参数规模差异也进一步凸显了其效率优势。
在韩国本土合作方面,NVIDIA表示,Krafton、LG、Naver、SK Telecom等韩国AI企业正基于NemoTron开展相关开发。活动期间,公司还发布了面向韩语的合成数据集“NemoTron Persona Korea”。该数据集依据韩国人口、语言和文化统计信息生成,包含700万个完全合成的Persona,不含个人可识别信息(PII)。