中国AI初创公司DeepSeek近日发布了新技术Engram相关论文,提出以外部记忆机制提升大语言模型推理效率。
据The Information报道,该论文由DeepSeek创始人Liang Wenfeng、DeepSeek研究团队及北京大学研究人员共同署名。论文提出,针对国家首都、历史事件年份等事实性知识,模型无需在每次生成时重复计算,而是可先写入独立记忆库,在需要时再通过条件检索方式调用。
在传统生成式AI模型中,这类信息往往需要在模型内部反复激活和重建,因而带来较高计算开销。Engram的目标是减少这部分消耗,让模型将更多算力用于更高层次的推理任务。按照论文思路,这一机制有望提升大语言模型在多轮对话和连续指令处理场景下的运行效率,并改善响应速度与准确性。
DeepSeek还暗示,Engram未来可能应用于下一代模型V4。外界普遍认为,V4将是2025年12月发布的V3后续版本,代码生成能力有望进一步增强,并可能于2026年2月春节前后对外公布。
随着论文发布,DeepSeek也已将Engram相关实现代码开源至GitHub。
记者信息