Google Research发布TurboQuant：AI模型内存占用最低可降至原来的1/6

生成中...

Chi-gyu Hwang

发布时间 2026-03-27 18:06:24

搜索关键词

Google Research、DeepMind与纽约大学近日联合发布新一代量化算法TurboQuant，旨在缓解AI模型在推理阶段面临的内存瓶颈。KAIST于27日表示，KAIST电气与电子工程学院教授Insu Han参与了这项研究。

据介绍，AI模型通常会将输入信息转换为向量，并通过向量之间的相似度计算执行相关任务。由于这一过程高度依赖高精度数据表示，模型往往需要占用大量内存，这也长期被视为制约AI性能与效率的重要因素之一。

TurboQuant是一种量化技术，核心做法是以更低比特数对高精度数据进行压缩表示，在尽可能保留关键信息的同时，降低存储与计算开销。KAIST表示，研究结果显示，该算法在几乎不影响精度的情况下，可将AI模型的内存占用最多压缩至原来的1/6，进一步缓解推理过程中的内存压力。

从技术路径看，TurboQuant采用两阶段量化结构。第一阶段，算法先对输入数据进行随机旋转（Random Rotation），再对各个元素进行量化，以减少数据中的极端值（outlier），从而提升整体压缩效率。KAIST指出，这一思路也曾应用于Insu Han参与的既有研究PolarQuant。

第二阶段则对第一阶段产生的残差（residual）再次进行量化。该环节引入QJL（Quantized Johnson-Lindenstrauss）方法，以{-1, 1}两值实现超轻量级1比特表征，在尽量控制信息损失的同时提升计算效率。

KAIST还预计，这类技术演进有望在中长期为半导体内存市场带来新的活力。短期来看，单个AI模型所需的内存容量下降，可能令相关需求增速放缓；但从更长周期看，这项技术仍有望成为推动AI普及的重要催化剂。

Insu Han表示，随着AI模型性能持续提升，内存需求快速增加已成为最主要的限制因素之一；此次研究在维持精度的同时有效缓解了相关瓶颈，也为这一问题提供了新的解决方向。其还表示，未来该技术有望成为更高效运行大规模AI模型的重要基础。

Chi-gyu Hwang delight@d-today.co.kr