AI & Enterprise
Google Research发布TurboQuant:AI模型内存占用最低可降至原来的1/6
Google Research、DeepMind与纽约大学联合推出新一代量化算法TurboQuant,KAIST电气与电子工程学院教授Insu Han参与相关研究。该技术通过两阶段量化压缩模型内部表示,并结合QJL(Quantized Johnson-Lindenstrauss)1比特表征,在几乎不影响精度的情况下,可将内存占用最多压缩至原来的1/6,重点缓解AI推理阶段的内存压力。