MLCommons于1日(当地时间)公布了MLPerf推理v6.0基准测试结果。共有23家公司提交451项测试结果,NVIDIA、AMD、Intel等主要芯片厂商的数据中心AI推理性能也由此在同一基准下展开直接比较。
本轮测试新增DeepSeek-R1、Llama3.1 405B等大规模生成式AI模型。随着数据中心推理测试范围从文本生成扩展至视频和多模态领域,Qwen3-VL 235B、Wan 2.2等相关模型也首次被纳入测试。
NVIDIA此次主打基于Blackwell架构的GB300和B300加速器,并在多项基准测试中取得领先。在DeepSeek-R1服务器场景下,GB300以72节点、共288个加速器的配置(每节点4个),实现每秒处理155万个token。按单节点配置计算,搭载8个B300的系统在Llama2 70B服务器场景下达到每秒107,317个token,在DeepSeek-R1场景下达到每秒42,721个token。
Cisco、ASUSTeK等合作伙伴也提交了基于B300系统的测试结果,在Llama2 70B场景下,吞吐量达到每秒10万至11万个token。
AMD则提交了由Instinct MI355X GPU组成的集群测试结果。根据披露,该集群由11个节点组成,每节点8个、合计88个GPU。在Llama2 70B服务器场景下,其成绩为每秒1,016,375个token。按单节点配置计算,搭载8个MI355X的系统达到每秒100,282个token,与NVIDIA B300单节点表现接近。
在合作伙伴提交的结果中,Dell、HPE、Giga Computing、Supermicro、Oracle基于MI355X系统的成绩主要集中在每秒93,000至98,000个token;Cisco和MiTAC基于MI350X提交的成绩则在每秒76,000至77,000个token之间。
AMD表示,Instinct MI355X在新一代生成式AI负载上实现了每秒超过100万个token的性能,并验证了其可扩展推理能力。公司同时强调,此次结果体现了产品在吞吐量上的代际提升,并显示其在Llama 2 70B等主流大语言模型上的单GPU竞争力以及多节点扩展稳定性。
Intel此次提交了Xeon 6处理器与Arc Pro B系列GPU组合方案的测试结果。其中,由4个Arc Pro B60组成的系统在Llama2 70B服务器场景下达到每秒1,106个token;4个Arc Pro B70组成的系统达到每秒1,698个token。虽然其吞吐量明显低于纯GPU加速器方案,但也显示出Intel正借此拓展面向推理场景的产品布局。
此外,提交结果还显示,Intel仅使用Xeon 6980P处理器,在Llama3.1 8B离线场景下实现了每秒9.6个token的吞吐量。
Intel数据中心集团AI产品与GTM负责人Anil Nanduri表示,Xeon 6与Arc Pro B系列GPU的组合旨在为客户提供更多选择,覆盖从大语言模型到传统机器学习工作负载的不同需求,并兼顾性能与成本价值。