KAIST ngày 27/3 cho biết giáo sư Han Insu đã tham gia nhóm nghiên cứu với Google Research, DeepMind và New York University để phát triển TurboQuant, thuật toán mới giúp cải thiện hiệu quả sử dụng bộ nhớ của các mô hình trí tuệ nhân tạo (AI) lên tới 6 lần.
Theo KAIST, TurboQuant là thuật toán lượng tử hóa thế hệ mới được phát triển nhằm xử lý nút thắt bộ nhớ, một trong những rào cản lớn nhất của mô hình AI.
Về nguyên lý, mô hình AI xử lý dữ liệu đầu vào dưới dạng vector và tính toán độ tương đồng giữa các vector này. Tuy nhiên, việc sử dụng dữ liệu có độ chính xác cao đòi hỏi dung lượng bộ nhớ rất lớn, từ đó làm gia tăng đáng kể chi phí lưu trữ và tính toán.
TurboQuant giải quyết bài toán này bằng kỹ thuật lượng tử hóa (quantization), tức nén dữ liệu độ chính xác cao xuống biểu diễn với số bit thấp hơn. Cách làm này giúp giữ lại thông tin cốt lõi, đồng thời giảm đáng kể dung lượng lưu trữ và tải tính toán.
KAIST cho biết trong nghiên cứu lần này, TurboQuant đã nén hiệu quả thông tin bên trong mô hình AI, giúp tiết kiệm bộ nhớ tới 6 lần mà gần như không làm giảm độ chính xác. Thành quả này đặc biệt đáng chú ý trong bối cảnh nút thắt bộ nhớ từ lâu là trở ngại lớn ở giai đoạn suy luận AI.
Trọng tâm của TurboQuant là cấu trúc lượng tử hóa hai giai đoạn. Ở giai đoạn đầu, dữ liệu đầu vào được xử lý bằng kỹ thuật Random Rotation trước khi lượng tử hóa từng phần tử, qua đó giảm các giá trị ngoại lai và nâng hiệu quả nén. KAIST cho biết cách tiếp cận này cũng từng được áp dụng trong nghiên cứu PolarQuant mà giáo sư Han Insu tham gia trước đó.
Ở giai đoạn thứ hai, phần sai số phát sinh từ bước đầu tiếp tục được lượng tử hóa thêm một lần nữa. Tại bước này, kỹ thuật QJL (Quantized Johnson-Lindenstrauss) biểu diễn dữ liệu chỉ bằng hai giá trị {-1, 1} dưới dạng 1 bit siêu nhẹ, giúp giảm thất thoát thông tin và tối ưu hiệu quả tính toán.
KAIST đánh giá tiến bộ này có thể tạo động lực trung và dài hạn cho thị trường bộ nhớ bán dẫn. Trong ngắn hạn, nhu cầu có thể chững lại do lượng bộ nhớ cần thiết để chạy cùng một mô hình AI giảm xuống, song KAIST cho rằng về lâu dài đây sẽ là chất xúc tác thúc đẩy phổ cập AI.
Giáo sư Han Insu cho biết khi hiệu năng mô hình AI tăng lên, mức tiêu thụ bộ nhớ cũng tăng rất nhanh và từ lâu đã trở thành giới hạn lớn. Theo ông, nghiên cứu lần này mở ra một hướng tiếp cận mới để giảm nút thắt bộ nhớ mà vẫn duy trì độ chính xác, đồng thời có thể trở thành nền tảng quan trọng cho việc vận hành hiệu quả các mô hình AI quy mô lớn trong tương lai.