MLPerf推理v6.0发布：数据中心AI推理芯片竞争加剧

NHN Cloud在光州的国家AI数据中心内部，配备NVIDIA H100等GPU。（图片来源：NHN Cloud）

MLCommons于1日（当地时间）公布了MLPerf推理v6.0基准测试结果。共有23家公司提交451项测试结果，NVIDIA、AMD、Intel等主要芯片厂商的数据中心AI推理性能也由此在同一基准下展开直接比较。

本轮测试新增DeepSeek-R1、Llama3.1 405B等大规模生成式AI模型。随着数据中心推理测试范围从文本生成扩展至视频和多模态领域，Qwen3-VL 235B、Wan 2.2等相关模型也首次被纳入测试。

NVIDIA此次主打基于Blackwell架构的GB300和B300加速器，并在多项基准测试中取得领先。在DeepSeek-R1服务器场景下，GB300以72节点、共288个加速器的配置（每节点4个），实现每秒处理155万个token。按单节点配置计算，搭载8个B300的系统在Llama2 70B服务器场景下达到每秒107,317个token，在DeepSeek-R1场景下达到每秒42,721个token。

Cisco、ASUSTeK等合作伙伴也提交了基于B300系统的测试结果，在Llama2 70B场景下，吞吐量达到每秒10万至11万个token。

AMD则提交了由Instinct MI355X GPU组成的集群测试结果。根据披露，该集群由11个节点组成，每节点8个、合计88个GPU。在Llama2 70B服务器场景下，其成绩为每秒1,016,375个token。按单节点配置计算，搭载8个MI355X的系统达到每秒100,282个token，与NVIDIA B300单节点表现接近。

在合作伙伴提交的结果中，Dell、HPE、Giga Computing、Supermicro、Oracle基于MI355X系统的成绩主要集中在每秒93,000至98,000个token；Cisco和MiTAC基于MI350X提交的成绩则在每秒76,000至77,000个token之间。

AMD表示，Instinct MI355X在新一代生成式AI负载上实现了每秒超过100万个token的性能，并验证了其可扩展推理能力。公司同时强调，此次结果体现了产品在吞吐量上的代际提升，并显示其在Llama 2 70B等主流大语言模型上的单GPU竞争力以及多节点扩展稳定性。

Intel此次提交了Xeon 6处理器与Arc Pro B系列GPU组合方案的测试结果。其中，由4个Arc Pro B60组成的系统在Llama2 70B服务器场景下达到每秒1,106个token；4个Arc Pro B70组成的系统达到每秒1,698个token。虽然其吞吐量明显低于纯GPU加速器方案，但也显示出Intel正借此拓展面向推理场景的产品布局。

此外，提交结果还显示，Intel仅使用Xeon 6980P处理器，在Llama3.1 8B离线场景下实现了每秒9.6个token的吞吐量。

Intel数据中心集团AI产品与GTM负责人Anil Nanduri表示，Xeon 6与Arc Pro B系列GPU的组合旨在为客户提供更多选择，覆盖从大语言模型到传统机器学习工作负载的不同需求，并兼顾性能与成本价值。

Daegeon Seok d2dg@d-today.co.kr

关键词