AI基础设施企业Dinothicia于7月2日宣布,已公开与KV缓存压缩技术相关的论文及源代码。KV缓存是大语言模型在GPU上保存已处理上下文的缓存机制,用于减少重复计算。
据Dinothicia介绍,此次公开的STAR-KV是由UC San Diego的VVIP实验室与Dinothicia研究团队共同完成的联合研究成果,相关论文已入选机器学习国际会议ICML 2026(International Conference on Machine Learning 2026)Spotlight。
论文实验结果显示,STAR-KV仅通过低秩压缩,便可将KV缓存最高减少75%;若进一步结合论文提出的混合精度量化方法,整体压缩幅度最高可达20倍。
随着长上下文大模型应用升温,KV缓存压缩正成为AI基础设施领域的重要技术方向。Dinothicia表示,在Google研究团队公开TurboQuant等方案后,围绕长上下文推理内存瓶颈的研究持续升温。STAR-KV则提出了一种以低秩压缩为基础,并结合量化和GPU执行优化的技术思路。
ICML与NeurIPS、ICLR并列为AI与机器学习领域的顶级国际学术会议之一。ICML 2026将于7月6日至11日在首尔COEX举行。
Dinothicia表示,后续将推动STAR-KV在实际AI服务场景中的应用,并计划支持其在vLLM等开源大语言模型推理框架中使用。
Dinothicia CEO Moo-Kyung Jeong表示,相关技术正推动AI以更低成本、更快速度处理更长上下文;STAR-KV着力解决KV缓存容量和Attention处理速度这两项关键瓶颈,公司也希望通过开源方式为AI推理生态作出贡献。