Google ra mắt TurboQuant, nén KV cache giúp giảm bộ nhớ tới 6 lần

Đang tạo...

Kyung-min Hong (홍경민)

Đăng lúc 2026-03-26 10:52:04

Chia sẻ bài viết này

TurboQuant, thuật toán nén mới do Google công bố. Ảnh: Google

Google vừa công bố TurboQuant, thuật toán nén mới dành cho mô hình ngôn ngữ lớn (LLM), nhằm cắt giảm đáng kể nhu cầu bộ nhớ và rút ngắn thời gian xử lý. Theo kết quả thử nghiệm ban đầu, công nghệ này có thể giúp giảm mức sử dụng bộ nhớ tới 6 lần và cải thiện hiệu năng tới 8 lần.

Theo Ars Technica ngày 25/3 (giờ địa phương), TurboQuant được phát triển để nén KV cache - vùng nhớ trung gian lưu trữ các cặp key-value phục vụ cơ chế attention trong LLM. Mục tiêu của Google là giảm dung lượng bộ nhớ cần thiết nhưng vẫn duy trì hiệu năng và độ chính xác của mô hình.

Về cách hoạt động, TurboQuant tối ưu việc xử lý dữ liệu vector đa chiều mà mô hình AI sử dụng. Thay vì biểu diễn vector theo hệ tọa độ thông thường, Google áp dụng hệ thống PolarQuant để chuyển sang dạng tọa độ cực, qua đó đơn giản hóa cách biểu diễn dữ liệu và nâng hiệu quả nén.

Để hạn chế sai số phát sinh trong quá trình nén, TurboQuant bổ sung thêm bước hiệu chỉnh bằng kỹ thuật QJL (Quantized Johnson-Lindenstrauss). Cách làm này giúp rút gọn biểu diễn vector nhưng vẫn giữ được mối quan hệ giữa các dữ liệu, từ đó cải thiện độ chính xác trong tính toán attention - thành phần cốt lõi của mô hình AI.

Google cho biết đã thử nghiệm thuật toán này trên các mô hình mã nguồn mở như Gemma và Mistral, đồng thời có thể triển khai mà không cần huấn luyện bổ sung. Theo giới quan sát trong ngành, nếu được ứng dụng rộng rãi, công nghệ này có thể góp phần giảm chi phí vận hành mô hình AI, đồng thời mở rộng khả năng triển khai AI trên các cấu hình phần cứng hạn chế, trong đó có thiết bị di động.

Kyung-min Hong (홍경민) hongm@d-today.co.kr

Google ra mắt TurboQuant, nén KV cache giúp giảm bộ nhớ tới 6 lần

Công nghệ mới cho LLM có thể tăng hiệu năng tới 8 lần trong các thử nghiệm ban đầu

Đang tạo...

Tóm tắt AI

Google giới thiệu TurboQuant, thuật toán nén nhắm tới KV cache của LLM, với khả năng giảm nhu cầu bộ nhớ tối đa 6 lần và tăng hiệu năng tới 8 lần trong thử nghiệm ban đầu.

Từ khóa