Dinotisia、KVキャッシュ圧縮技術「STAR-KV」の論文・ソースコード公開

生成中...

Chi-gyu Hwang

公開 2026-07-02 10:52:49

この記事を共有

Dinotisiaは7月2日、大規模言語モデル（LLM）向けのKVキャッシュ圧縮技術「STAR-KV」の論文とソースコードを公開したと発表した。LLMが過去の文脈を再計算せずに済むようGPU上に保持するKVキャッシュを効率化する技術で、論文はICML 2026のSpotlight論文に採択された。

同社によると、STAR-KVはUCサンディエゴのVVIP LabとDinotisiaによる共同研究の成果だ。

論文の実験では、低ランク圧縮だけでKVキャッシュ容量を75％削減した。さらに、論文で提案した混合精度量子化手法を組み合わせることで、KVキャッシュ全体を最大20倍まで圧縮できたとしている。

KVキャッシュ圧縮は、AIインフラ分野で重要な技術課題の一つとなっている。Googleの研究チームが公開したTurboQuantが注目を集めるなど、長文コンテキスト対応AIにおけるメモリボトルネックの解消に向けた研究が活発化する中、STAR-KVは低ランク圧縮を軸に、量子化とGPU実行の最適化を組み合わせた手法だという。

STAR-KVの論文が採択されたICMLは、NeurIPS、ICLRと並ぶAI・機械学習分野の代表的な国際会議。ICML 2026は7月6日から11日まで、ソウルのCOEXで開催される。

Dinotisiaは今後、STAR-KVを実際のAIサービス環境で活用できるよう改良を進める。vLLMなどのオープンソースLLM推論フレームワークで利用可能にする計画だ。

チョン・ムギョンCEOは「AIがより長い文脈を、より低コストかつ高速に処理できる技術の進展が続いている」とした上で、「STAR-KVは、主要なボトルネックであるKVキャッシュ容量とAttention処理速度の課題を実質的に解決する技術だ。オープンソース化を通じて、AI推論のエコシステムに貢献したい」とコメントした。

Chi-gyu Hwang delight@d-today.co.kr

Dinotisia、KVキャッシュ圧縮技術「STAR-KV」の論文・ソースコード公開

低ランク圧縮と混合精度量子化で最大20倍圧縮、ICML 2026のSpotlight論文に採択

生成中...

AI要約

Dinotisiaは、LLM向けKVキャッシュ圧縮技術「STAR-KV」の論文とソースコードを公開した。低ランク圧縮と混合精度量子化を組み合わせ、KVキャッシュを最大20倍まで圧縮したという。

キーワード