Google发布Gemma 4 QAT：面向手机和笔记本降低端侧内存需求

Google表示，此次发布表明，量化不仅可用于压缩，也可以在训练阶段协同设计。图片来源：Google

Google发布面向智能手机和笔记本电脑的“Gemma 4 QAT”，希望通过进一步压缩内存占用，降低大模型在端侧设备上的运行门槛。随着越来越多应用尝试摆脱云端、转向设备本地运行AI模型，如何在尽量不牺牲输出质量的前提下减少资源消耗，正成为行业关注重点。

据Gigazine当地时间6月8日报道，Google此次推出的是基于量化感知训练（Quantization-Aware Training，QAT）的Gemma 4模型系列。与传统做法通常在模型训练完成后再进行量化不同，Gemma 4 QAT在训练阶段就引入量化模拟，以减少后续量化对模型输出质量带来的影响。

Google表示，这种方式可以在显著降低内存占用的同时，尽量保持与原始模型接近的输出表现。对于希望在本地设备上运行大语言模型的开发者而言，这意味着部署门槛有望进一步下降。

在本地运行场景中，模型通常需要先装入显卡显存（VRAM）。如果模型规模超出显存容量，系统就不得不调用内存（RAM）甚至存储空间（SSD），从而拖慢响应速度。Google希望借助Gemma 4 QAT缓解这一限制，让更多设备具备运行大模型的能力。

此次发布覆盖Gemma 4全系型号，包括E2B、E4B、12B、26B、A4B和31B，其中E2B与E4B还提供了针对移动设备优化的版本。

从内存占用来看，小参数模型的改善最为明显。原版Gemma 4 E2B运行约需11.4GB内存；采用QAT后的4bit（Q4_0）版本，内存需求可降至约2.9GB。移动端优化版本则进一步压缩至约1.1GB。若移除图像和语音处理能力，仅保留文本能力，E2B文本专用模型的内存需求还可降至0.84GB。

这也意味着，生成式AI在智能手机和轻薄笔记本上的本地运行条件正进一步成熟。过去，不少模型往往需要数十GB内存，普通消费级设备很难承载；而Gemma 4 QAT将模型运行所需资源压缩至更低水平，有助于推动端侧AI落地。

在开放策略上，Google同样给出了较低的使用门槛。Gemma 4 QAT可免费获取，并采用Apache License 2.0许可；同时，Google官方支持llama.cpp、Ollama、LM Studio等常见本地运行环境，便于开发者在不同平台上部署和调用模型。

从产品方向来看，AI模型竞争正在从单纯追求性能，进一步延伸至运行效率和设备可达性。尤其是可在约1GB内存下运行的移动端版本，以及内存需求降至0.84GB的文本专用型号，均显示出大模型正加快向手机、平板及低配笔记本等设备下沉。

Google表示，未来将以Gemma 4 QAT为基础，推动AI能力从数据中心和高性能PC继续扩展至普通消费级设备。在大模型竞争持续升温的背景下，如何以更少资源覆盖更多终端，正成为新的焦点。

Jinju Hong hongjj@d-today.co.kr

关键词