Google vừa công bố TurboQuant, thuật toán nén mới dành cho mô hình ngôn ngữ lớn (LLM), nhằm cắt giảm đáng kể nhu cầu bộ nhớ và rút ngắn thời gian xử lý. Theo kết quả thử nghiệm ban đầu, công nghệ này có thể giúp giảm mức sử dụng bộ nhớ tới 6 lần và cải thiện hiệu năng tới 8 lần.
Theo Ars Technica ngày 25/3 (giờ địa phương), TurboQuant được phát triển để nén KV cache - vùng nhớ trung gian lưu trữ các cặp key-value phục vụ cơ chế attention trong LLM. Mục tiêu của Google là giảm dung lượng bộ nhớ cần thiết nhưng vẫn duy trì hiệu năng và độ chính xác của mô hình.
Về cách hoạt động, TurboQuant tối ưu việc xử lý dữ liệu vector đa chiều mà mô hình AI sử dụng. Thay vì biểu diễn vector theo hệ tọa độ thông thường, Google áp dụng hệ thống PolarQuant để chuyển sang dạng tọa độ cực, qua đó đơn giản hóa cách biểu diễn dữ liệu và nâng hiệu quả nén.
Để hạn chế sai số phát sinh trong quá trình nén, TurboQuant bổ sung thêm bước hiệu chỉnh bằng kỹ thuật QJL (Quantized Johnson-Lindenstrauss). Cách làm này giúp rút gọn biểu diễn vector nhưng vẫn giữ được mối quan hệ giữa các dữ liệu, từ đó cải thiện độ chính xác trong tính toán attention - thành phần cốt lõi của mô hình AI.
Google cho biết đã thử nghiệm thuật toán này trên các mô hình mã nguồn mở như Gemma và Mistral, đồng thời có thể triển khai mà không cần huấn luyện bổ sung. Theo giới quan sát trong ngành, nếu được ứng dụng rộng rãi, công nghệ này có thể góp phần giảm chi phí vận hành mô hình AI, đồng thời mở rộng khả năng triển khai AI trên các cấu hình phần cứng hạn chế, trong đó có thiết bị di động.