Dinotisiaは7月2日、大規模言語モデル(LLM)向けのKVキャッシュ圧縮技術「STAR-KV」の論文とソースコードを公開したと発表した。LLMが過去の文脈を再計算せずに済むようGPU上に保持するKVキャッシュを効率化する技術で、論文はICML 2026のSpotlight論文に採択された。
同社によると、STAR-KVはUCサンディエゴのVVIP LabとDinotisiaによる共同研究の成果だ。
論文の実験では、低ランク圧縮だけでKVキャッシュ容量を75%削減した。さらに、論文で提案した混合精度量子化手法を組み合わせることで、KVキャッシュ全体を最大20倍まで圧縮できたとしている。
KVキャッシュ圧縮は、AIインフラ分野で重要な技術課題の一つとなっている。Googleの研究チームが公開したTurboQuantが注目を集めるなど、長文コンテキスト対応AIにおけるメモリボトルネックの解消に向けた研究が活発化する中、STAR-KVは低ランク圧縮を軸に、量子化とGPU実行の最適化を組み合わせた手法だという。
STAR-KVの論文が採択されたICMLは、NeurIPS、ICLRと並ぶAI・機械学習分野の代表的な国際会議。ICML 2026は7月6日から11日まで、ソウルのCOEXで開催される。
Dinotisiaは今後、STAR-KVを実際のAIサービス環境で活用できるよう改良を進める。vLLMなどのオープンソースLLM推論フレームワークで利用可能にする計画だ。
チョン・ムギョンCEOは「AIがより長い文脈を、より低コストかつ高速に処理できる技術の進展が続いている」とした上で、「STAR-KVは、主要なボトルネックであるKVキャッシュ容量とAttention処理速度の課題を実質的に解決する技術だ。オープンソース化を通じて、AI推論のエコシステムに貢献したい」とコメントした。