Google Research、DeepMind、ニューヨーク大学の共同研究チームが、AIモデルのメモリ使用効率を高める量子化アルゴリズム「TurboQuant」を公開した。KAISTは3月27日、電気・電子工学部のハン・インス教授が同研究に参加したと発表した。精度低下を抑えながら、メモリ使用効率を最大6倍高められるという。
大規模AIモデルでは、高精度データを扱う過程で大量のメモリ資源が必要となり、推論時の大きな制約になってきた。TurboQuantは、こうしたメモリボトルネックの緩和を狙った技術だ。
量子化は、実数中心の高精度データをより少ないビット数で表現し、保存容量と計算負荷を抑える手法を指す。TurboQuantはこの量子化を活用し、重要な情報を維持しながらデータを効率よく圧縮する。
KAISTによると、TurboQuantはAIモデル内のデータを効率的に圧縮し、精度低下をほとんど招かずにメモリ使用量を大幅に削減した。AI推論の主要な課題とされるメモリボトルネックの改善につながる成果だとしている。
TurboQuantの特徴は、二段階の量子化構造にある。第1段階では、入力データをランダム回転したうえで各要素を個別に量子化する。これによりデータ内の外れ値を減らし、圧縮効率を高める。KAISTによれば、この手法はハン・インス教授が参加した既存研究「PolarQuant」でも用いられている。
第2段階では、第1段階で生じた残差を改めて量子化する。ここで適用するQJL(Quantized Johnson-Lindenstrauss)は、データを{-1, 1}だけで表現する1ビット方式で、情報損失を抑えつつ計算効率を高められるとしている。
KAISTは、こうした技術の進展が半導体メモリ市場にも中長期的にプラスに働く可能性があるとの見方を示した。短期的には、同じAIモデルの稼働に必要なメモリ容量が減ることで需要の伸びが鈍って見える可能性がある一方、長期的には「AIの大衆化の起爆剤」になり得ると説明している。
ハン・インス教授は「AIモデルは大規模化するほどメモリ使用量が急増し、それが大きな制約になってきた」とコメント。「今回の研究は、精度を維持しながらこのボトルネックを効果的に抑える新たな方向性を示した」と述べた。今後は、大規模AIモデルをより効率的に運用するための中核技術としての活用に期待を寄せた。