Googleは8日(現地時間)、メモリ使用量を大幅に抑えたAIモデル「Gemma 4 QAT」を公開した。量子化対応学習(Quantization-Aware Training、QAT)を採用し、応答品質の低下を抑えながら、スマートフォンや一般的なノートPCでもローカルAIを動かしやすくする狙いだ。
今回公開したのは、Gemma 4にQATを適用したモデル群。学習後に量子化する一般的な手法とは異なり、学習段階から量子化を織り込んで訓練した点が特徴となる。通常は量子化によってメモリ使用量を減らせる一方、計算精度が落ちて応答品質が低下する場合があるが、Gemma 4 QATではその影響を抑えたとしている。
背景には、AIモデルのローカル実行ニーズの拡大がある。大規模言語モデル(LLM)をPCで動かす場合、一般にはモデル全体をグラフィックスメモリ(VRAM)に収める必要がある。VRAMに収まりきらない場合はシステムメモリ(RAM)やストレージ(SSD)に頼ることになり、応答速度が大きく落ちる可能性がある。
GoogleはGemma 4 QATによってこうした制約の緩和を図り、より幅広い端末でAIモデルを実行できるようにする。対象はGemma 4の全モデル系列で、E2B、E4B、12B、26B、A4B、31Bに適用する。E2BとE4Bについては、モバイル機器向けの最適化版も用意した。
メモリ削減効果は小型モデルで特に大きい。従来のGemma 4 E2Bは約11.4GBのメモリを必要としていたが、QATベースの4ビット(Q4_0)版では約2.9GBで動作するという。モバイル最適化版では必要メモリを約1.1GBまで削減し、画像・音声処理機能を省いたテキスト専用のE2Bモデルは0.84GBで動作可能としている。
こうした仕様は、スマートフォンや軽量ノートPC上で生成AIを直接動かそうとする流れに沿うものだ。これまで一般消費者向け端末では、数十GB規模のメモリを要するモデルが多く、実用化のハードルが高かった。Gemma 4 QATは、ローカルAIの利用環境を広げる選択肢になりそうだ。
提供形態もオープンにした。Gemma 4 QATは無料で提供し、ライセンスにはApache License 2.0を採用する。あわせて、llama.cpp、Ollama、LM Studioなど、主要なローカルAI実行環境を正式にサポートする。
今回の発表は、AIモデル開発の競争軸が単純な性能向上だけでなく、実行効率やアクセス性にも広がっていることを示す動きといえる。GoogleはGemma 4 QATを通じて、AIの実行環境をデータセンターや高性能PCから一般消費者向け端末へ広げる基盤整備を進める考えだ。今後は、より少ないリソースで、より多くの機器で動かせるかが競争力を左右する要素となりそうだ。