米国立標準技術研究所(NIST)傘下のAI標準・イノベーションセンター(CAISI)は、DeepSeekの最新モデル「DeepSeek V4 Pro」の評価報告書を公表した。中国製AIでは最高水準の性能を示した一方、米国の最新最上位モデルと比べると約8カ月の差があると結論付けた。
オンラインメディアのGIGAZINEが12日(現地時間)に報じた。CAISIは、オープンウエートモデルであるDeepSeek V4 Proを5分野・9ベンチマークで検証し、性能面では「最新AIに対して約8カ月遅れ」と評価した。
報告書によると、DeepSeek V4 Proは2026年4月に公開されたモデルだが、性能水準はOpenAIが2025年8月に投入したGPT-5に近いとされた。
中国国内の競合との比較では優位が目立った。DeepSeek V4 Proは、中国製AIで最高得点とされてきた「Kimi K2.5」を約200ポイント上回った。CAISIは、5分野の総合スコアで200ポイントの差があれば、特定タスクを解ける確率が3倍になることを意味すると説明している。
評価対象は、サイバー、ソフトウェアエンジニアリング、自然科学、抽象推論、数学の5分野。ベンチマークには、ハッキング能力を測る「CTF-Archive-Diamond」、コーディング能力をみる「SWE-Bench Verified」、研究レベルの科学推論を測る「FrontierScience」、抽象推論の「ARC-AGI-2 semi-private」、数学推論の「OTIS-AIME-2025」など、計9指標を用いた。
一方で、CAISIはDeepSeek V4 Proのコスト効率の高さも強みとして挙げた。同機関は、同等の性能帯にある他のAIモデルと比べてコスト効率が高いと評価している。
特に、米国モデルの中でコスト効率が最も高いとされたOpenAIの「GPT-5.4 mini」と比べても、DeepSeek V4 Proは7つのベンチマークのうち5つで上回った。全体ではGPT-5.4 miniより41~53%高いコスト効率を示したという。
開発者向けの価格表示によると、DeepSeek V4 Proの入力トークン単価は100万トークン当たり、キャッシュなしで1.74ドル(約261円)、キャッシュ利用時で0.0145ドル(約2円)。出力トークンは3.48ドル(約522円)だった。
これに対し、GPT-5.4 miniは入力トークンがキャッシュなしで0.75ドル(約113円)、キャッシュ利用時で0.075ドル(約11円)、出力トークンは4.5ドル(約675円)とされた。
報告書は、DeepSeekが公表していた自己評価と外部検証の間に差があることも示した。DeepSeekは公開資料で、DeepSeek V4 ProがClaude Opus 4.6やGPT-5.4と同水準だとしていたが、CAISIの実測ではGPT-5級にとどまった。
またCAISIは、コスト効率の比較から一部ベンチマークを除外した理由も明らかにした。「PortBench」は同機関の費用比較手法が未対応で、「ARC-AGI-2」についてはGPT-5.4 miniの評価過程で技術的な問題があったという。このため、コスト比較は9件ではなく7ベンチマークベースで示された。
DeepSeekは2026年4月末、最新モデル群「DeepSeek V4」を公開した。このうちDeepSeek V4 Proは、総パラメータ数1兆6000億の上位モデルに位置付けられる。
今回の評価は、中国AIが性能面でなお米国の最先端勢に及ばない一方、オープンウエートと価格競争力を武器に存在感を高めていることを示した。外部評価の基準では、依然として最新の最上位モデルとの差が残っていることも浮き彫りになった。