Google đã ra mắt Gemma 4 QAT, phiên bản mới của dòng mô hình Gemma 4 được tối ưu để giảm mạnh nhu cầu bộ nhớ, qua đó hỗ trợ chạy AI cục bộ trên smartphone và laptop phổ thông dễ dàng hơn.
Theo Gigazine ngày 8/6/2026, điểm đáng chú ý nhất của Gemma 4 QAT là việc Google đưa kỹ thuật huấn luyện có tính đến lượng tử hóa, tức Quantization-Aware Training (QAT), vào ngay từ giai đoạn huấn luyện mô hình.
Thông thường, các mô hình AI được lượng tử hóa sau khi hoàn tất huấn luyện nhằm giảm dung lượng bộ nhớ. Tuy nhiên, cách làm này có thể ảnh hưởng đến độ chính xác tính toán và làm giảm chất lượng phản hồi. Với Gemma 4 QAT, Google mô phỏng quá trình lượng tử hóa ngay khi huấn luyện để cắt giảm bộ nhớ nhưng vẫn duy trì chất lượng đầu ra ở mức tương đương các mô hình trước đó.
Động thái này diễn ra trong bối cảnh xu hướng đưa AI chạy trực tiếp trên thiết bị ngày càng rõ nét. Khi vận hành mô hình ngôn ngữ lớn (LLM) trên PC, toàn bộ mô hình thường phải được nạp vào bộ nhớ đồ họa (VRAM). Nếu dung lượng VRAM không đủ, hệ thống sẽ phải dùng thêm RAM hoặc SSD, kéo theo tốc độ phản hồi giảm đáng kể.
Google cho biết Gemma 4 QAT được phát triển để giảm bớt rào cản nói trên và mở rộng khả năng triển khai AI trên nhiều loại thiết bị. Hãng đã áp dụng QAT cho toàn bộ dòng Gemma 4, gồm E2B, E4B, 12B, 27B, A4B và 31B. Trong đó, E2B và E4B có thêm phiên bản tối ưu riêng cho thiết bị di động.
Hiệu quả tiết kiệm bộ nhớ thể hiện rõ nhất ở các mô hình dung lượng nhỏ. Trước đây, Gemma 4 E2B cần khoảng 11,4GB bộ nhớ để vận hành. Với phiên bản 4-bit (Q4_0) dùng QAT, mức yêu cầu giảm xuống còn khoảng 2,9GB. Bản tối ưu cho di động tiếp tục hạ xuống khoảng 1,1GB. Riêng biến thể E2B chỉ xử lý văn bản, không hỗ trợ ảnh và giọng nói, có thể chạy với khoảng 0,84GB bộ nhớ.
Mức dung lượng này phù hợp với xu hướng đưa AI tạo sinh lên smartphone và laptop mỏng nhẹ. Trước đây, nhiều mô hình yêu cầu hàng chục GB bộ nhớ, khiến thiết bị tiêu dùng khó đáp ứng. Với Gemma 4 QAT, rào cản triển khai AI cục bộ được hạ xuống đáng kể.
Google cũng tiếp cận theo hướng mở. Các mô hình Gemma 4 QAT được cung cấp miễn phí theo giấy phép Apache License 2.0, đồng thời hỗ trợ chính thức các môi trường chạy AI cục bộ phổ biến như llama.cpp, Ollama và LM Studio. Cách triển khai này giúp nhà phát triển dễ dàng sử dụng trên nhiều nền tảng khác nhau mà không bị phụ thuộc vào hệ sinh thái đóng.
Theo giới quan sát, thông báo lần này cho thấy cuộc cạnh tranh trên thị trường mô hình AI không còn chỉ xoay quanh hiệu năng, mà đang mở rộng sang hiệu quả vận hành và khả năng tiếp cận. Những phiên bản di động có thể chạy với khoảng 1GB bộ nhớ, cùng bản chỉ văn bản ở mức 0,84GB, có thể thúc đẩy AI phổ biến nhanh hơn trên smartphone, tablet và laptop cấu hình thấp.
Google đang hướng Gemma 4 QAT trở thành nền tảng để mở rộng AI từ trung tâm dữ liệu và PC hiệu năng cao sang thiết bị tiêu dùng. Trong bối cảnh cuộc đua mô hình ngày càng gay gắt, khả năng vận hành trên nhiều thiết bị hơn với ít tài nguyên hơn đang nổi lên như một lợi thế cạnh tranh mới.