Google发布TurboQuant压缩算法。图片来源:Google

Google发布了新压缩算法TurboQuant,目标是在降低大语言模型(LLM)内存占用的同时,提高运行效率。

据外媒Ars Technica当地时间25日报道,TurboQuant主要针对大语言模型中用于存储上下文信息的Key-Value Cache(KV缓存)。Google表示,该算法旨在在减少内存使用的同时,尽量维持模型性能和准确性。初步测试显示,在部分实验中,内存占用最高可压缩至原来的1/6,运行速度最高提升8倍。

这项技术主要用于更高效地处理AI模型中的高维向量数据。按照Google的说法,传统向量表示方式会带来较高的存储开销,而其名为PolarQuant的系统可将向量转换为极坐标形式,以简化数据表示并提高压缩效率。

为降低压缩过程中可能产生的误差,TurboQuant还引入了QJL(Quantized Johnson-Lindenstrauss)方法进行校正。在进一步压缩向量信息的同时,该方法尽量保留数据之间的关系,从而提高AI模型关键环节——注意力分数计算的准确性。

Google称,TurboQuant已在Gemma、Mistral等开源模型上完成测试,且无需额外训练即可应用。若投入实际应用,这项技术有望帮助降低AI模型运行成本,并推动AI在移动端等硬件受限环境中的部署效率。

关键词

#Google #TurboQuant #大语言模型 #KV缓存 #PolarQuant #QJL #Gemma #Mistral
版权所有 © DigitalToday。未经授权禁止转载或传播。