Dinothicia开源STAR-KV技术，缓解大语言模型推理内存瓶颈

生成中...

Chi-gyu Hwang

发布时间 2026-07-02 10:52:49

搜索关键词

AI基础设施企业Dinothicia于7月2日宣布，已公开与KV缓存压缩技术相关的论文及源代码。KV缓存是大语言模型在GPU上保存已处理上下文的缓存机制，用于减少重复计算。

据Dinothicia介绍，此次公开的STAR-KV是由UC San Diego的VVIP实验室与Dinothicia研究团队共同完成的联合研究成果，相关论文已入选机器学习国际会议ICML 2026（International Conference on Machine Learning 2026）Spotlight。

论文实验结果显示，STAR-KV仅通过低秩压缩，便可将KV缓存最高减少75%；若进一步结合论文提出的混合精度量化方法，整体压缩幅度最高可达20倍。

随着长上下文大模型应用升温，KV缓存压缩正成为AI基础设施领域的重要技术方向。Dinothicia表示，在Google研究团队公开TurboQuant等方案后，围绕长上下文推理内存瓶颈的研究持续升温。STAR-KV则提出了一种以低秩压缩为基础，并结合量化和GPU执行优化的技术思路。

ICML与NeurIPS、ICLR并列为AI与机器学习领域的顶级国际学术会议之一。ICML 2026将于7月6日至11日在首尔COEX举行。

Dinothicia表示，后续将推动STAR-KV在实际AI服务场景中的应用，并计划支持其在vLLM等开源大语言模型推理框架中使用。

Dinothicia CEO Moo-Kyung Jeong表示，相关技术正推动AI以更低成本、更快速度处理更长上下文；STAR-KV着力解决KV缓存容量和Attention处理速度这两项关键瓶颈，公司也希望通过开源方式为AI推理生态作出贡献。

Chi-gyu Hwang delight@d-today.co.kr