Summit Pandey。图片来源:其LinkedIn页面

Google DeepMind发布开源模型Gemma 4,市场反响整体较为积极。Hugging Face首席技术官Julien Chaumond甚至评价称:“Google又回到牌桌上了。”

Gemma系列累计下载量已达4亿次,社区衍生模型超过10万个。不过,在实际应用竞争中,Gemma一度被DeepSeek、Qwen和Llama等模型压过风头。此次Gemma 4能否帮助Google重新提升其在开源模型领域的存在感,成为外界关注焦点。

数据科学家兼机器学习工程师Summit Pandey表示,与上一代相比,Gemma 4的性能提升幅度相当明显,市场或许需要重新审视这一系列模型的潜力。

从产品形态来看,Gemma 4共推出4种规格。E2B(Effective 2B parameters)和E4B(Effective 4B parameters)面向端侧场景,可运行在智能手机、Raspberry Pi等设备上,语音识别等任务也可直接在本地完成,无需依赖云端。26B MoE(Mixture of Experts,4B active)总参数约252亿,推理时仅激活38亿参数。31B Dense则为旗舰版本,目前在开源模型综合榜单中排名第3。

上下文窗口方面,E2B和E4B支持12.8万token,26B MoE和31B Dense支持25.6万token。Pandey表示,这一长度已经足以将整个代码库一次性装入单个提示中。

从基准测试结果看,Gemma 4较前代有明显进步。数学竞赛基准AIME上,Gemma 3 27B得分为20.8%,Gemma 4 31B则升至89.2%。在编程能力指标Codeforces ELO上,其分数从110提高到2150。博士级科学问题基准GPQA Diamond上,Gemma 4取得84.3%,而该基准下人类专家的正确率约为65%。

Pandey指出,在GPQA Diamond上,Gemma 4虽然仍低于Claude Opus 4.6的91.3%和GPT-5.2的92.4%,差距约为7至8个百分点,但后两者均为采用数百亿参数的超大规模闭源模型。相比之下,Gemma 4 31B可以直接在笔记本电脑上运行。此外,Gemma 4的这一成绩也较不少开发者日常使用的Claude Sonnet 4.6(74.1%)高出10个百分点以上。

在Pandey看来,26B MoE尤其值得关注。该版本仅激活38亿参数,就在GPQA Diamond上取得82.3%的成绩。作为对比,中国AI创业公司Moonshot AI开发的Kimi K2.5激活参数为320亿,约为Gemma 4 26B MoE的8倍,得分为87.6%。也就是说,若只换来约5个百分点的差距,所需算力成本却大幅增加。

除性能表现外,许可协议的变化也是Gemma 4的一大看点。此前,Gemma采用的是Google自有许可;而Gemma 4改为Apache 2.0许可,与Kubernetes、TensorFlow所采用的许可一致。

Pandey表示,Apache 2.0许可的使用限制极少,可直接用于商业化场景,也允许自由分叉和微调。这意味着,初创公司和企业在开发AI产品时面临的一项关键障碍被进一步移除,模型、数据和部署的控制权也可以更多掌握在使用者手中。

过去一段时间,开源AI榜单高位长期由DeepSeek等中国模型占据,美国开源阵营中较受关注的则主要是Meta的Llama和NVIDIA的Nemotron。Pandey表示,随着Gemma 4 31B升至第3、26B MoE升至第6,Google也开始全面加入开源模型竞赛。与此同时,配备16GB内存的笔记本电脑即可直接运行E4B版本。

Pandey补充称,Gemma 4未必会击败Claude Opus 4.6或GPT-5.2,但这并不是最合适的比较维度。在无需支付API成本、数据无需离端、且可避免供应商锁定的前提下,Gemma 4已经成为更具竞争力的候选方案。

关键词

#Google DeepMind #Gemma 4 #开源模型 #Apache 2.0 #MoE #边缘模型 #上下文窗口 #AIME #Codeforces ELO #GPQA Diamond
版权所有 © DigitalToday。未经授权禁止转载或传播。