MLPerf推論v6.0公表、NVIDIAやAMDがデータセンター向けAI推論で競う

NVIDIA H100などを採用したNHN Cloudの光州国家AIデータセンター（写真=NHN Cloud）

MLCommonsは4月1日（現地時間）、AI推論ベンチマーク「MLPerf推論v6.0」の結果を公表した。23社が451件の結果を提出し、NVIDIA、AMD、Intelなど主要半導体各社のデータセンター向けAI加速器を比較できる内容となった。

今回のラウンドでは、DeepSeek-R1やLlama 3.1 405Bといった大規模生成AIモデルを新たに追加した。あわせて、推論ワークロードの対象拡大に対応し、Qwen3-VL 235BやWan 2.2も初めて評価対象に加えた。

NVIDIAはBlackwellアーキテクチャのGB300とB300を主力として投入し、多くのベンチマークで上位の成績を示した。DeepSeek-R1のサーバシナリオでは、GB300を72ノード（1ノード当たり4基、計288基）で構成し、毎秒155万トークンを処理した。

単一ノード構成（B300×8）では、Llama 2 70Bのサーバシナリオで毎秒10万7317トークン、DeepSeek-R1で毎秒4万2721トークンを記録した。CiscoやASUSTeKなどのパートナー各社も、B300ベースのシステムでLlama 2 70Bにおいて毎秒10万〜11万トークン台の結果を提出した。

AMDは、Instinct MI355X GPUを11ノード（1ノード当たり8基、計88基）で構成したクラスタの結果を提出した。Llama 2 70Bのサーバシナリオでは、毎秒101万6375トークンを記録した。

単一ノード構成（MI355X×8）でも毎秒10万282トークンを達成し、NVIDIAのB300単一ノードと近い水準を示した。Dell、HPE、Giga Computing、Supermicro、OracleもMI355Xベースのシステムで参加し、毎秒9万3000〜9万8000トークン台の結果を示した。CiscoとMiTACはMI350Xベースで毎秒7万6000〜7万7000トークンを記録した。

AMD関係者は、Instinct MI355X GPUについて、新たな生成AIワークロードで毎秒100万トークン超の性能を達成し、スケーラブルな推論性能を示したとコメントした。今回の結果は、処理量の面で世代をまたぐ大幅な伸びを示すとともに、Llama 2 70Bなど主要LLMで幅広い競争力を示したとしている。さらに、Dell、HPE、Ciscoなどのパートナーエコシステムを背景に、マルチノード環境での拡張性も確認できたとした。

Intelは、Xeon 6プロセッサとArc Pro BシリーズGPUを組み合わせた構成の結果を提出した。Arc Pro B60を4基搭載したシステムは、Llama 2 70Bのサーバシナリオで毎秒1106トークン、Arc Pro B70を4基搭載した構成では毎秒1698トークンを記録した。

GPU専用加速器と比べると処理量は小さいものの、CPUベースの推論市場も視野に入れた構成とみられる。参考値として、IntelはXeon 6980Pプロセッサ単体でも、Llama 3.1 8Bのオフラインシナリオで毎秒9.6トークンを処理する結果を提出した。

IntelデータセンターグループでAI製品・GTM総括を務めるアニル・ナンドゥリ氏は、「Xeon 6とArc Pro BシリーズGPUの組み合わせは、顧客の選択肢と価値を広げるための投資だ」と説明した。そのうえで、グラフィックス分野の専門家やAI開発者向けに、大規模言語モデル（LLM）から従来の機械学習（ML）ワークロードまで対応できる実用的なソリューションと、優れた性能対価値を提供すると述べた。

Daegeon Seok d2dg@d-today.co.kr

MLPerf推論v6.0公表、NVIDIAやAMDがデータセンター向けAI推論で競う

DeepSeek-R1やLlama 3.1を追加、動画・マルチモーダル系も評価対象に

生成中...

AI要約

MLCommonsは4月1日、MLPerf推論v6.0の結果を公表した。23社が451件の結果を提出し、NVIDIAやAMD、Intelのデータセンター向けAI加速器を比較できる内容となった。

キーワード