Google Research、DeepMind与纽约大学近日联合发布新一代量化算法TurboQuant,旨在缓解AI模型在推理阶段面临的内存瓶颈。KAIST于27日表示,KAIST电气与电子工程学院教授Insu Han参与了这项研究。
据介绍,AI模型通常会将输入信息转换为向量,并通过向量之间的相似度计算执行相关任务。由于这一过程高度依赖高精度数据表示,模型往往需要占用大量内存,这也长期被视为制约AI性能与效率的重要因素之一。
TurboQuant是一种量化技术,核心做法是以更低比特数对高精度数据进行压缩表示,在尽可能保留关键信息的同时,降低存储与计算开销。KAIST表示,研究结果显示,该算法在几乎不影响精度的情况下,可将AI模型的内存占用最多压缩至原来的1/6,进一步缓解推理过程中的内存压力。
从技术路径看,TurboQuant采用两阶段量化结构。第一阶段,算法先对输入数据进行随机旋转(Random Rotation),再对各个元素进行量化,以减少数据中的极端值(outlier),从而提升整体压缩效率。KAIST指出,这一思路也曾应用于Insu Han参与的既有研究PolarQuant。
第二阶段则对第一阶段产生的残差(residual)再次进行量化。该环节引入QJL(Quantized Johnson-Lindenstrauss)方法,以{-1, 1}两值实现超轻量级1比特表征,在尽量控制信息损失的同时提升计算效率。
KAIST还预计,这类技术演进有望在中长期为半导体内存市场带来新的活力。短期来看,单个AI模型所需的内存容量下降,可能令相关需求增速放缓;但从更长周期看,这项技术仍有望成为推动AI普及的重要催化剂。
Insu Han表示,随着AI模型性能持续提升,内存需求快速增加已成为最主要的限制因素之一;此次研究在维持精度的同时有效缓解了相关瓶颈,也为这一问题提供了新的解决方向。其还表示,未来该技术有望成为更高效运行大规模AI模型的重要基础。