美NIST旗下CAISI评测：DeepSeek V4 Pro接近GPT-5水平，与美国最新头部模型仍差约8个月

美国国家标准与技术研究院（NIST）旗下AI安全研究机构CAISI最新评测显示，DeepSeek最新模型“DeepSeek V4 Pro”在综合表现上已接近OpenAI于2025年8月推出的GPT-5水平，但与美国最新头部模型相比，整体仍有约8个月差距。

据日本科技媒体Gigazine当地时间12日报道，CAISI近日发布了针对DeepSeek V4 Pro的评测报告。报告认为，DeepSeek V4 Pro目前在中国同类模型中表现最强，但与美国最新一线模型之间仍存在明显差距。

从性能定位看，CAISI对DeepSeek V4 Pro在五大领域、九项基准测试中的表现进行了评估，并据此判断，该模型相较美国最新头部模型大致落后8个月。报告称，尽管DeepSeek V4 Pro于2026年4月底才公开发布，但其综合性能已接近GPT-5。

与国内竞品相比，DeepSeek V4 Pro的优势更为明显。报告显示，其综合评分较此前中国模型中得分最高的“Kimi K2.5”高出约200分。CAISI解释称，在五个领域的综合评分体系下，200分的差距意味着完成特定任务的成功概率约为后者的3倍。

本次评测覆盖网络安全、软件工程、自然科学、抽象推理和数学五个方向，具体包括衡量网络攻防能力的CTF-Archive-Diamond、评估编程能力的SWE-Bench Verified、研究级科学推理测试FrontierScience、抽象推理测试ARC-AGI-2 semi-private，以及数学推理测试OTIS-AIME-2025等九项基准。

除性能外，报告还强调了DeepSeek V4 Pro的成本效率。CAISI认为，在同等性能水平的模型中，DeepSeek V4 Pro具备更高的成本效率。与被认为是美国模型中成本效率最高的OpenAI GPT-5.4 mini相比，DeepSeek V4 Pro在七项可比基准中的五项表现更优，整体成本效率高出41%至53%。

报告同时披露了两款模型的定价结构。按开发者公开信息，DeepSeek V4 Pro的输入Token价格为：非缓存输入每100万Token 1.74美元，缓存输入每100万Token 0.0145美元；输出Token价格为每100万Token 3.48美元。GPT-5.4 mini的输入Token价格为：非缓存输入每100万Token 0.75美元，缓存输入每100万Token 0.075美元；输出Token价格为每100万Token 4.5美元。

报告也显示，DeepSeek官方表述与第三方评测结果之间存在一定落差。DeepSeek在公开资料中称，DeepSeek V4 Pro与Claude Opus 4.6、GPT-5.4水平相近；但CAISI实测结果显示，该模型更接近GPT-5水平，而非GPT-5.4。

对于成本效率比较未覆盖全部九项基准的原因，CAISI也作出说明：由于现行成本比较方法尚不适用于PortBench，该项未被纳入；ARC-AGI-2则因GPT-5.4 mini在评测流程中出现技术问题而被排除。因此，此次成本对比仅基于七项基准展开，而非全部九项。

DeepSeek于2026年4月底发布最新模型系列“DeepSeek V4”，其中DeepSeek V4 Pro为参数规模达1.6万亿的高端版本。CAISI认为，此次评测表明，中国AI在性能上尚未完全追平美国第一梯队，但正凭借开放权重和成本优势持续提升存在感；与此同时，在第三方验证口径下，其与美国最新顶级模型之间的差距仍然存在。

Jinju Hong hongjj@d-today.co.kr

关键词