MLCommonsは4月1日(現地時間)、AI推論ベンチマーク「MLPerf推論v6.0」の結果を公表した。23社が451件の結果を提出し、NVIDIA、AMD、Intelなど主要半導体各社のデータセンター向けAI加速器を比較できる内容となった。
今回のラウンドでは、DeepSeek-R1やLlama 3.1 405Bといった大規模生成AIモデルを新たに追加した。あわせて、推論ワークロードの対象拡大に対応し、Qwen3-VL 235BやWan 2.2も初めて評価対象に加えた。
NVIDIAはBlackwellアーキテクチャのGB300とB300を主力として投入し、多くのベンチマークで上位の成績を示した。DeepSeek-R1のサーバシナリオでは、GB300を72ノード(1ノード当たり4基、計288基)で構成し、毎秒155万トークンを処理した。
単一ノード構成(B300×8)では、Llama 2 70Bのサーバシナリオで毎秒10万7317トークン、DeepSeek-R1で毎秒4万2721トークンを記録した。CiscoやASUSTeKなどのパートナー各社も、B300ベースのシステムでLlama 2 70Bにおいて毎秒10万〜11万トークン台の結果を提出した。
AMDは、Instinct MI355X GPUを11ノード(1ノード当たり8基、計88基)で構成したクラスタの結果を提出した。Llama 2 70Bのサーバシナリオでは、毎秒101万6375トークンを記録した。
単一ノード構成(MI355X×8)でも毎秒10万282トークンを達成し、NVIDIAのB300単一ノードと近い水準を示した。Dell、HPE、Giga Computing、Supermicro、OracleもMI355Xベースのシステムで参加し、毎秒9万3000〜9万8000トークン台の結果を示した。CiscoとMiTACはMI350Xベースで毎秒7万6000〜7万7000トークンを記録した。
AMD関係者は、Instinct MI355X GPUについて、新たな生成AIワークロードで毎秒100万トークン超の性能を達成し、スケーラブルな推論性能を示したとコメントした。今回の結果は、処理量の面で世代をまたぐ大幅な伸びを示すとともに、Llama 2 70Bなど主要LLMで幅広い競争力を示したとしている。さらに、Dell、HPE、Ciscoなどのパートナーエコシステムを背景に、マルチノード環境での拡張性も確認できたとした。
Intelは、Xeon 6プロセッサとArc Pro BシリーズGPUを組み合わせた構成の結果を提出した。Arc Pro B60を4基搭載したシステムは、Llama 2 70Bのサーバシナリオで毎秒1106トークン、Arc Pro B70を4基搭載した構成では毎秒1698トークンを記録した。
GPU専用加速器と比べると処理量は小さいものの、CPUベースの推論市場も視野に入れた構成とみられる。参考値として、IntelはXeon 6980Pプロセッサ単体でも、Llama 3.1 8Bのオフラインシナリオで毎秒9.6トークンを処理する結果を提出した。
IntelデータセンターグループでAI製品・GTM総括を務めるアニル・ナンドゥリ氏は、「Xeon 6とArc Pro BシリーズGPUの組み合わせは、顧客の選択肢と価値を広げるための投資だ」と説明した。そのうえで、グラフィックス分野の専門家やAI開発者向けに、大規模言語モデル(LLM)から従来の機械学習(ML)ワークロードまで対応できる実用的なソリューションと、優れた性能対価値を提供すると述べた。