Mustafa Suleyman,Microsoft AI负责人(图片来源:维基媒体)

Microsoft AI负责人Mustafa Suleyman近日谈及DeepSeek等中国开源AI模型时表示,这类依赖“蒸馏”训练的路线存在明显上限。

据Semafor当地时间29日报道,Mustafa Suleyman在采访中称,“蒸馏”(distillation)的本质,是利用Anthropic、OpenAI等前沿实验室大模型生成的数据来训练小模型。这条路线最终会走进“死胡同”,相当于“把别人的知识硬塞进模型里”。

他表示,Microsoft在自研AI模型上坚持“零蒸馏”路线。蒸馏在面向特定任务开发小模型时或许有效,但一旦进入通用能力竞争,最终仍难以赶上前沿大模型。

Mustafa Suleyman还指出,前沿AI公司并不会公开训练大模型所使用的海量数据集,这也使外界更难判断,蒸馏模型究竟优先继承了哪些能力与偏好。

Semafor报道称,此前关于“低成本中国蒸馏模型将主导市场”的预测并未成为现实。相较开源模型,市场对顶级AI模型的需求增长更快。报道还称,如果Mustafa Suleyman的判断成立,前沿大模型与开源模型之间的差距,可能比外界预期更大。

关键词

#Microsoft #Mustafa Suleyman #DeepSeek #开源AI模型 #蒸馏 #零蒸馏 #Anthropic #OpenAI #前沿大模型
版权所有 © DigitalToday。未经授权禁止转载或传播。