DeepSeek(图片来源:Shutterstock)

美国国家标准与技术研究院(NIST)旗下AI安全研究机构CAISI最新评测显示,DeepSeek最新模型“DeepSeek V4 Pro”在综合表现上已接近OpenAI于2025年8月推出的GPT-5水平,但与美国最新头部模型相比,整体仍有约8个月差距。

据日本科技媒体Gigazine当地时间12日 报道,CAISI近日发布了针对DeepSeek V4 Pro的评测报告。报告认为,DeepSeek V4 Pro目前在中国同类模型中表现最强,但与美国最新一线模型之间仍存在明显差距。

从性能定位看,CAISI对DeepSeek V4 Pro在五大领域、九项基准测试中的表现进行了评估,并据此判断,该模型相较美国最新头部模型大致落后8个月。报告称,尽管DeepSeek V4 Pro于2026年4月底才公开发布,但其综合性能已接近GPT-5。

与国内竞品相比,DeepSeek V4 Pro的优势更为明显。报告显示,其综合评分较此前中国模型中得分最高的“Kimi K2.5”高出约200分。CAISI解释称,在五个领域的综合评分体系下,200分的差距意味着完成特定任务的成功概率约为后者的3倍。

本次评测覆盖网络安全、软件工程、自然科学、抽象推理和数学五个方向,具体包括衡量网络攻防能力的CTF-Archive-Diamond、评估编程能力的SWE-Bench Verified、研究级科学推理测试FrontierScience、抽象推理测试ARC-AGI-2 semi-private,以及数学推理测试OTIS-AIME-2025等九项基准。

除性能外,报告还强调了DeepSeek V4 Pro的成本效率。CAISI认为,在同等性能水平的模型中,DeepSeek V4 Pro具备更高的成本效率。与被认为是美国模型中成本效率最高的OpenAI GPT-5.4 mini相比,DeepSeek V4 Pro在七项可比基准中的五项表现更优,整体成本效率高出41%至53%。

报告同时披露了两款模型的定价结构。按开发者公开信息,DeepSeek V4 Pro的输入Token价格为:非缓存输入每100万Token 1.74美元,缓存输入每100万Token 0.0145美元;输出Token价格为每100万Token 3.48美元。GPT-5.4 mini的输入Token价格为:非缓存输入每100万Token 0.75美元,缓存输入每100万Token 0.075美元;输出Token价格为每100万Token 4.5美元。

报告也显示,DeepSeek官方表述与第三方评测结果之间存在一定落差。DeepSeek在公开资料中称,DeepSeek V4 Pro与Claude Opus 4.6、GPT-5.4水平相近;但CAISI实测结果显示,该模型更接近GPT-5水平,而非GPT-5.4。

对于成本效率比较未覆盖全部九项基准的原因,CAISI也作出说明:由于现行成本比较方法尚不适用于PortBench,该项未被纳入;ARC-AGI-2则因GPT-5.4 mini在评测流程中出现技术问题而被排除。因此,此次成本对比仅基于七项基准展开,而非全部九项。

DeepSeek于2026年4月底发布最新模型系列“DeepSeek V4”,其中DeepSeek V4 Pro为参数规模达1.6万亿的高端版本。CAISI认为,此次评测表明,中国AI在性能上尚未完全追平美国第一梯队,但正凭借开放权重和成本优势持续提升存在感;与此同时,在第三方验证口径下,其与美国最新顶级模型之间的差距仍然存在。

关键词

#DeepSeek #DeepSeek V4 Pro #NIST #CAISI #GPT-5 #GPT-5.4 mini #AI基准测试 #成本效率 #开放权重
版权所有 © DigitalToday。未经授权禁止转载或传播。