Google发布面向智能手机和笔记本电脑的“Gemma 4 QAT”,希望通过进一步压缩内存占用,降低大模型在端侧设备上的运行门槛。随着越来越多应用尝试摆脱云端、转向设备本地运行AI模型,如何在尽量不牺牲输出质量的前提下减少资源消耗,正成为行业关注重点。
据Gigazine当地时间6月8日报道,Google此次推出的是基于量化感知训练(Quantization-Aware Training,QAT)的Gemma 4模型系列。与传统做法通常在模型训练完成后再进行量化不同,Gemma 4 QAT在训练阶段就引入量化模拟,以减少后续量化对模型输出质量带来的影响。
Google表示,这种方式可以在显著降低内存占用的同时,尽量保持与原始模型接近的输出表现。对于希望在本地设备上运行大语言模型的开发者而言,这意味着部署门槛有望进一步下降。
在本地运行场景中,模型通常需要先装入显卡显存(VRAM)。如果模型规模超出显存容量,系统就不得不调用内存(RAM)甚至存储空间(SSD),从而拖慢响应速度。Google希望借助Gemma 4 QAT缓解这一限制,让更多设备具备运行大模型的能力。
此次发布覆盖Gemma 4全系型号,包括E2B、E4B、12B、26B、A4B和31B,其中E2B与E4B还提供了针对移动设备优化的版本。
从内存占用来看,小参数模型的改善最为明显。原版Gemma 4 E2B运行约需11.4GB内存;采用QAT后的4bit(Q4_0)版本,内存需求可降至约2.9GB。移动端优化版本则进一步压缩至约1.1GB。若移除图像和语音处理能力,仅保留文本能力,E2B文本专用模型的内存需求还可降至0.84GB。
这也意味着,生成式AI在智能手机和轻薄笔记本上的本地运行条件正进一步成熟。过去,不少模型往往需要数十GB内存,普通消费级设备很难承载;而Gemma 4 QAT将模型运行所需资源压缩至更低水平,有助于推动端侧AI落地。
在开放策略上,Google同样给出了较低的使用门槛。Gemma 4 QAT可免费获取,并采用Apache License 2.0许可;同时,Google官方支持llama.cpp、Ollama、LM Studio等常见本地运行环境,便于开发者在不同平台上部署和调用模型。
从产品方向来看,AI模型竞争正在从单纯追求性能,进一步延伸至运行效率和设备可达性。尤其是可在约1GB内存下运行的移动端版本,以及内存需求降至0.84GB的文本专用型号,均显示出大模型正加快向手机、平板及低配笔记本等设备下沉。
Google表示,未来将以Gemma 4 QAT为基础,推动AI能力从数据中心和高性能PC继续扩展至普通消费级设备。在大模型竞争持续升温的背景下,如何以更少资源覆盖更多终端,正成为新的焦点。