简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词 QJL

AI & Enterprise

Google Research发布TurboQuant：AI模型内存占用最低可降至原来的1/6

Google Research、DeepMind与纽约大学联合推出新一代量化算法TurboQuant，KAIST电气与电子工程学院教授Insu Han参与相关研究。该技术通过两阶段量化压缩模型内部表示，并结合QJL（Quantized Johnson-Lindenstrauss）1比特表征，在几乎不影响精度的情况下，可将内存占用最多压缩至原来的1/6，重点缓解AI推理阶段的内存压力。

AI & Enterprise

Google发布TurboQuant：大语言模型（LLM）内存占用可降至1/6，速度最高提升8倍

Google发布面向大语言模型的新压缩算法TurboQuant，主要用于压缩Key-Value Cache（KV缓存），以在降低内存占用的同时尽量维持模型性能和准确性。根据Google披露的初步测试结果，该算法在部分实验中可将内存占用压缩至原来的1/6，运行速度最高提升8倍，并已在Gemma、Mistral等开源模型上完成测试。