画像=Google

Googleは、大規模言語モデル(LLM)のメモリ使用量を抑えつつ処理性能を高める圧縮技術「TurboQuant」を発表した。LLMが推論時に利用するキー・バリュー(KV)キャッシュを圧縮することで、メモリ負荷の軽減と高速化の両立を狙う。

米Ars Technicaが3月25日(現地時間)に報じた。Googleによると、TurboQuantはKVキャッシュのサイズを縮小しながら、性能と精度の維持を目指している。初期テストでは、実験条件に応じてメモリ使用量を最大6分の1に抑え、処理性能を最大8倍に高めたという。

TurboQuantは、AIモデルが扱う高次元ベクトルの表現方法を見直すことで圧縮効率を高める。従来の座標表現に代えて、Google独自の「PolarQuant」により極座標ベースの表現へ変換し、データ表現を簡素化する仕組みだ。

さらに、圧縮に伴って生じる誤差を抑えるため、「QJL(Quantized Johnson-Lindenstrauss)」による補正処理も組み込んだ。ベクトル情報を小さく保ちながらベクトル間の関係を維持し、アテンションスコア計算の精度維持につなげるとしている。

Googleは、GemmaやMistralなどの公開モデルで同技術を検証し、追加学習なしで適用できると説明した。実用化が進めば、AIモデルの運用コスト低減に加え、モバイル環境のようにハードウェア制約が大きい場面でもAIを効率的に活用できる可能性がある。

キーワード

#Google #AI #LLM #TurboQuant #KVキャッシュ #Gemma #Mistral
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.