中国のAI企業DeepSeekが、大規模言語モデルの推論を高速化するオープンソース技術「DSpark」を公開した。モデル本体を改変せずに推論プロセスを最適化する仕組みで、ユーザーが体感する応答速度は60〜85%改善し、システム全体のスループットは最大661%向上したという。VentureBeatが6月29日(現地時間)に報じた。
DSparkは、モデルそのものに手を加えず、推論処理の効率化によって高速化を図る設計を採る。
報道によると、既存のAIチャットボットは通常、テキストをトークン単位で順次生成する。これに対しDSparkでは、小型で高速な補助モデルが数ステップ先のトークンを先読みし、大型モデルがそれを一括で検証する。推測が正しければ複数トークンをまとめて確定し、誤っていた場合は該当部分だけを破棄して再試行することで、生成速度を引き上げる。
DeepSeekの実運用テストでは、ユーザーが体感する応答速度が60〜85%改善し、システム全体のスループットは最大661%向上したとしている。
DSparkの中核技術は2つある。1つは、補助モデルが複数トークンを同時に推測しつつ、前後の文脈を踏まえて推測精度を高める点だ。もう1つは、サーバー負荷に応じて検証量を動的に調整する仕組みで、トラフィックが少ない時は検証量を増やし、混雑時には誤りの可能性が高い推測をスキップするという。
DSparkは、DeepSeekの自社モデルV4に加え、Alibaba QwenやGoogle Gemmaなど他のオープンソースモデルにも適用できる。DeepSeekはコード、学習パイプライン、チェックポイントをMITライセンスで公開しており、研究用途・商用利用の双方で利用できる。