Google DeepMind vừa công bố Gemma 4, thế hệ mới của dòng mô hình AI mở. Những đánh giá ban đầu khá tích cực, trong đó CTO tại Hugging Face, Julien Chaumond, nhận xét rằng “Google đã trở lại cuộc chơi”.
Trước đó, dòng Gemma đã ghi nhận 400 triệu lượt tải và hơn 100.000 mô hình phái sinh do cộng đồng phát triển. Tuy nhiên, trên thị trường mô hình mở, Gemma vẫn bị các đối thủ như DeepSeek, Qwen hay Llama lấn lướt. Gemma 4 được kỳ vọng sẽ giúp Google cải thiện vị thế trong phân khúc này.
Summit Pandey, nhà khoa học dữ liệu kiêm kỹ sư machine learning, đánh giá Gemma 4 cho thấy bước nhảy vọt rõ rệt về hiệu năng so với thế hệ trước.
Gemma 4 gồm 4 phiên bản. Trong đó, E2B (Effective 2B parameters) và E4B (Effective 4B parameters) là các mô hình biên, có thể chạy trên smartphone, Raspberry Pi và các thiết bị tương tự. Các tác vụ như nhận diện giọng nói có thể được xử lý trực tiếp trên thiết bị mà không cần đưa dữ liệu lên đám mây.
Bản 26B MoE (Mixture of Experts, 4B active) có 25,2 tỷ tham số, nhưng trong quá trình suy luận chỉ kích hoạt 3,8 tỷ tham số. Trong khi đó, bản 31B Dense được xem là mẫu chủ lực của dòng sản phẩm và hiện đứng thứ 3 trên bảng xếp hạng các mô hình mở.
Cửa sổ ngữ cảnh của các bản edge là 128.000 token, còn các bản lớn đạt 256.000 token. Theo Pandey, mức này đủ để đưa toàn bộ codebase vào một prompt.
Các bài kiểm chuẩn (benchmark) cũng cho thấy Gemma 4 cải thiện đáng kể. Với AIME, bài kiểm tra toán học, Gemma 3 27B đạt 20,8%, trong khi Gemma 4 31B tăng lên 89,2%. Ở năng lực lập trình, điểm Codeforces ELO tăng từ 110 lên 2.150. Với GPQA Diamond, bài kiểm tra khoa học ở cấp độ tiến sĩ, mô hình đạt 84,3%, trong khi tỷ lệ trả lời đúng của chuyên gia con người trong lĩnh vực này vào khoảng 65%.
Pandey cho biết Gemma 4 vẫn kém Claude Opus 4.6 (91,3%) và GPT-5.2 (92,4%) khoảng 7-8 điểm phần trăm. Tuy nhiên, đây đều là các mô hình độc quyền ở quy mô rất lớn. Trong khi đó, Gemma 4 31B vẫn có thể chạy trên laptop và còn vượt Claude Sonnet 4.6 (74,1%) hơn 10 điểm phần trăm, một mô hình đang được giới lập trình viên sử dụng khá phổ biến.
Theo Pandey, điểm đáng chú ý nhất nằm ở bản 26B MoE. Ông cho biết mô hình này chỉ kích hoạt 3,8 tỷ tham số nhưng vẫn đạt 82,3% ở GPQA Diamond. Trong khi đó, Kimi K2.5 do startup AI Trung Quốc Moonshot AI phát triển có số tham số kích hoạt lên tới 32 tỷ, gấp khoảng 8 lần Gemma 4 26B MoE, và đạt 87,6%. Theo ông, điều đó đồng nghĩa phải chấp nhận chi phí tính toán cao gấp 8 lần để đổi lấy chênh lệch khoảng 5 điểm.
Ngoài hiệu năng, Pandey cũng đánh giá cao thay đổi về giấy phép. Trước đây, các mô hình Gemma sử dụng giấy phép riêng của Google, còn Gemma 4 chuyển sang Apache 2.0, tương tự Kubernetes và TensorFlow.
Theo ông, Apache 2.0 không áp đặt hạn chế sử dụng và cho phép khai thác thương mại mà không yêu cầu công bố việc sử dụng. Người dùng cũng có thể tự do fork và fine-tune mô hình. Pandey nhận định đây là bước đi giúp gỡ bỏ một trong những rào cản lớn nhất với startup và doanh nghiệp khi phát triển sản phẩm AI, nhờ họ có thể chủ động sở hữu mô hình, dữ liệu và cách triển khai.
Trong thời gian qua, nhóm dẫn đầu trên bảng xếp hạng mô hình AI mở chủ yếu thuộc về các mô hình Trung Quốc như DeepSeek. Ở Mỹ, những cái tên đáng chú ý gồm Meta Llama và Nvidia Nemotron. Pandey cho rằng việc Gemma 4 31B vươn lên vị trí thứ 3 và bản 26B MoE đứng thứ 6 cho thấy Google đã chính thức nhập cuộc trở lại trong cuộc đua mô hình mở. Ông cũng nhấn mạnh rằng chỉ cần laptop với RAM 16GB là đã có thể chạy phiên bản E4B.
Dù vậy, Pandey cho rằng Gemma 4 không phải đối thủ trực diện của Claude Opus 4.6 hay GPT-5.2. Theo ông, câu hỏi phù hợp hơn là mô hình nào đủ mạnh để sử dụng mà không phải trả phí API, không làm dữ liệu rời khỏi thiết bị và không bị khóa vào một nhà cung cấp. Xét theo tiêu chí đó, Gemma 4 đã trở thành một ứng viên rất đáng chú ý.