NVIDIA、AI半導体の競争軸を単体性能からシステム効率へ

写真=ブライアン・カタンザロ氏（NVIDIA 応用ディープラーニング研究部門担当副社長）

NVIDIAは21日、AI半導体の競争軸を単体チップの性能から、事前学習、ポストトレーニング、推論、エージェントまでを含むシステム全体の効率へ移していく方針を示した。Blackwell世代のGPUについては、MoEモデルの推論性能が前世代Hopperの55倍に達したと明らかにした。

同日、ソウルで開かれた「ネモトロン・デベロッパー・デイズ・ソウル2026」で、ブライアン・カタンザロ氏（NVIDIA 応用ディープラーニング研究部門担当副社長）は「Compute is intelligence。より速いモデルほど、より賢いモデルになる」と述べた。AIの優位性は単一チップのスペック競争ではなく、学習から推論、エージェント活用までをまたぐ総合的な効率で決まるとの認識を示した。

注目されるのは、BlackwellのMoE推論性能だ。カタンザロ氏は「ジェンスン・フアンCEOはGTCで、BlackwellはHopper比30倍になると述べたが、直近のベンチマークでは55倍だった」と語った。

その背景について同氏は、MoEモデルのボトルネックは演算性能そのものではなく、GPU間接続にあると説明した。NVIDIAはこれを踏まえ、低遅延かつ高帯域のGPU間通信スイッチ「NVL72」を数年前から設計してきたという。

効率化は数値表現の面でも進める。Blackwellでは、1値当たり4.75ビットを使う新フォーマット「NDFP4」を導入した。開発中の「ネモトロン3 スーパー・ウルトラ」については、4ビット演算のみで事前学習を進めているとし、「これほど小さな数値表現で世界水準のモデルを構築するのは極めて挑戦的だ」と述べた。

◆ネモトロン3、30BモデルでIMO金メダル級性能

ソフトウェア面でも効率改善を進めている。NVIDIAによると、最新の事前学習データセットでは、同一ハードウェア条件で学習時間を従来比4分の1に短縮した。ポストトレーニング手法「PivotLM」は、推論経路の主要な分岐点にロールアウト予算を重点配分する方式で、ポストトレーニングの効率を約5倍高めたという。

カリキュラムベースのポストトレーニングプロジェクト「ネモトロン・カスケード」も公開した。300億パラメータ規模のネモトロン3ナノモデルに同手法を適用した結果、2025年の国際数学オリンピック（IMO）、国際情報オリンピック（IOI）、国際大学対抗プログラミングコンテスト（ICPC）世界大会で金メダル級の性能を達成したとしている。

同社によると、同水準に達したオープンソースモデルは、01.AIの6710億パラメータモデルのみだという。パラメータ数の差が、そのまま効率差として表れた格好だ。

韓国での提携も広がっている。NVIDIAは、Krafton、LG、Naver、SK telecomなど韓国のAI企業が、ネモトロンをベースにした開発へ参加していると発表した。今回のイベントでは、韓国語に特化した合成データセット「ネモトロン・ペルソナ・コリア」も公開した。

このデータセットには、韓国の人口、言語、文化に関する統計を基に生成した700万件の完全合成ペルソナを収録する。個人を特定できる情報（PII）は含まれていない。

Dae-geon Seok d2dg@d-today.co.kr

キーワード