DeepSeek资料图。图源:Shutterstock

据VentureBeat 6月29日报道,中国AI公司DeepSeek发布并开源推理加速方案DSpark,旨在提升大模型的生成响应效率。

DSpark的核心在于无需改动模型本身,而是通过优化推理流程来提升性能。据报道,传统AI聊天机器人通常以顺序方式生成文本;DSpark则先由体量更小、速度更快的辅助模型提前预测后续多个token,再交由更大的主模型集中验证。

如果预测命中,系统便可一次确认多段生成结果,从而缩短输出时间;如果预测不准确,则放弃相关内容并重新生成。DeepSeek称,在实际测试中,DSpark可将用户感知生成速度提升60%至85%,系统吞吐量最高提升661%。

VentureBeat指出,DSpark主要包含两项关键技术。其一,辅助模型可并行预测多个token,并结合上下文信息提高预测准确率;其二,系统可根据服务器负载动态调整验证范围。在负载较低时,系统会扩大验证量;在高负载情况下,则跳过更容易出错的预测,以减少额外开销。

除适用于DeepSeek自家的V4模型外,DSpark也可适配Qwen、Gemma等开源模型。DeepSeek同时以MIT许可证开放DSpark代码、训练流程和模型检查点,支持研究和商业用途。

关键词

#DeepSeek #DSpark #AI推理加速 #开源大模型 #吞吐量 #MIT许可证 #Qwen #Gemma
版权所有 © DigitalToday。未经授权禁止转载或传播。