Microsoft AI负责人Mustafa Suleyman近日谈及DeepSeek等中国开源AI模型时表示,这类依赖“蒸馏”训练的路线存在明显上限。
据Semafor当地时间29日报道,Mustafa Suleyman在采访中称,“蒸馏”(distillation)的本质,是利用Anthropic、OpenAI等前沿实验室大模型生成的数据来训练小模型。这条路线最终会走进“死胡同”,相当于“把别人的知识硬塞进模型里”。
他表示,Microsoft在自研AI模型上坚持“零蒸馏”路线。蒸馏在面向特定任务开发小模型时或许有效,但一旦进入通用能力竞争,最终仍难以赶上前沿大模型。
Mustafa Suleyman还指出,前沿AI公司并不会公开训练大模型所使用的海量数据集,这也使外界更难判断,蒸馏模型究竟优先继承了哪些能力与偏好。
Semafor报道称,此前关于“低成本中国蒸馏模型将主导市场”的预测并未成为现实。相较开源模型,市场对顶级AI模型的需求增长更快。报道还称,如果Mustafa Suleyman的判断成立,前沿大模型与开源模型之间的差距,可能比外界预期更大。
记者信息