Google发布TurboQuant：大语言模型（LLM）内存占用可降至1/6，速度最高提升8倍

生成中...

Kyung-min Hong (홍경민)

发布时间 2026-03-26 10:52:04

搜索关键词

Google发布了新压缩算法TurboQuant，目标是在降低大语言模型（LLM）内存占用的同时，提高运行效率。

据外媒Ars Technica当地时间25日报道，TurboQuant主要针对大语言模型中用于存储上下文信息的Key-Value Cache（KV缓存）。Google表示，该算法旨在在减少内存使用的同时，尽量维持模型性能和准确性。初步测试显示，在部分实验中，内存占用最高可压缩至原来的1/6，运行速度最高提升8倍。

这项技术主要用于更高效地处理AI模型中的高维向量数据。按照Google的说法，传统向量表示方式会带来较高的存储开销，而其名为PolarQuant的系统可将向量转换为极坐标形式，以简化数据表示并提高压缩效率。

为降低压缩过程中可能产生的误差，TurboQuant还引入了QJL（Quantized Johnson-Lindenstrauss）方法进行校正。在进一步压缩向量信息的同时，该方法尽量保留数据之间的关系，从而提高AI模型关键环节——注意力分数计算的准确性。

Google称，TurboQuant已在Gemma、Mistral等开源模型上完成测试，且无需额外训练即可应用。若投入实际应用，这项技术有望帮助降低AI模型运行成本，并推动AI在移动端等硬件受限环境中的部署效率。

Kyung-min Hong (홍경민) hongm@d-today.co.kr