SiliconANGLE ngày 2/4 (giờ địa phương) đưa tin Google đã giới thiệu Gemma 4, dòng mô hình AI open-weight mới được tối ưu để xử lý các tác vụ suy luận phức tạp ngay trên thiết bị công suất thấp.
Theo Google, Gemma 4 được xây dựng trên nền tảng kiến trúc tương tự Gemini 3, cho phép chạy cục bộ các tác vụ suy luận nâng cao và AI agent tự động trên nhiều thiết bị, từ workstation đến smartphone.
Dòng mô hình gồm bốn phiên bản: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) và 31B Dense. Trong đó, E2B và E4B hướng tới các thiết bị gọn nhẹ như smartphone Android hoặc Raspberry Pi. Với bản 26B MoE, Google cho biết mô hình chỉ kích hoạt 3,8 tỷ tham số trong quá trình suy luận nhằm tăng tốc xử lý, đồng thời vẫn duy trì năng lực tri thức của một mô hình quy mô lớn.
Google cho biết các mô hình mới tích hợp sẵn khả năng gọi hàm và hỗ trợ đầu ra JSON có cấu trúc, qua đó tạo điều kiện triển khai AI agent tự động có thể kết nối với công cụ bên ngoài để thực hiện các tác vụ nhiều bước.
Cả bốn mô hình đều hỗ trợ đầu vào hình ảnh và video. Riêng E2B và E4B còn hỗ trợ đầu vào âm thanh gốc, cho phép xử lý giọng nói theo thời gian thực ngay trên thiết bị.
Gemma 4 được phát hành theo giấy phép Apache 2.0. Người dùng có thể truy cập qua Google Cloud hoặc tải dưới dạng open-weight trên các nền tảng như Hugging Face, Kaggle và Ollama.