Dinoticia, doanh nghiệp chuyên về hạ tầng AI, ngày 2/7/2026 cho biết đã công bố bài báo khoa học cùng mã nguồn mở STAR-KV, công nghệ nén KV cache nhằm giảm gánh nặng bộ nhớ GPU và tối ưu quá trình suy luận của các mô hình ngôn ngữ lớn (LLM).
Theo công ty, STAR-KV là kết quả hợp tác nghiên cứu giữa Dinoticia và VVIP Lab thuộc UC San Diego. Công trình này đã được ICML 2026 (International Conference on Machine Learning 2026) xếp vào hạng mục Spotlight.
Dinoticia cho biết, theo kết quả thử nghiệm trong bài báo, STAR-KV có thể giảm tối đa 75% dung lượng KV cache chỉ với kỹ thuật nén hạng thấp. Khi kết hợp với phương pháp lượng tử hóa đa độ chính xác do nhóm nghiên cứu đề xuất, mức nén tổng thể có thể tăng lên tới 20 lần.
KV cache là bộ nhớ dùng để lưu ngữ cảnh trong quá trình suy luận LLM trên GPU. Việc nén thành phần này hiện được xem là một trong những bài toán kỹ thuật then chốt của ngành hạ tầng AI, đặc biệt khi nhu cầu xử lý ngữ cảnh dài ngày càng tăng.
Trong bối cảnh nhiều nhóm nghiên cứu đang tìm cách giảm nút thắt bộ nhớ cho các mô hình AI ngữ cảnh dài, như TurboQuant do Google công bố, Dinoticia nhấn mạnh STAR-KV theo đuổi hướng tiếp cận mới khi kết hợp nén hạng thấp, lượng tử hóa và tối ưu thực thi trên GPU.
ICML là một trong những hội nghị quốc tế tiêu biểu của lĩnh vực AI và máy học, bên cạnh NeurIPS và ICLR. ICML 2026 sẽ diễn ra từ ngày 6 đến 11/7/2026 tại Coex, Seoul.
Dinoticia cho biết sẽ tiếp tục hoàn thiện STAR-KV để phục vụ triển khai trong các môi trường dịch vụ AI thực tế, đồng thời hướng tới tích hợp công nghệ này vào các framework suy luận LLM mã nguồn mở như vLLM.
CEO Dinoticia Jung Moo-kyung cho biết các công nghệ giúp AI xử lý ngữ cảnh dài hơn với chi phí thấp hơn và tốc độ nhanh hơn đang phát triển nhanh chóng. Theo ông, STAR-KV giải quyết trực tiếp hai điểm nghẽn cốt lõi là dung lượng KV cache và tốc độ xử lý Attention, đồng thời sẽ đóng góp cho hệ sinh thái suy luận AI thông qua mã nguồn mở.