米企業の間で、業務内容に応じて複数のAIモデルを使い分ける「モデルルーティング」が広がっている。AI関連支出の抑制を進める中、複雑な業務にだけ高額な最先端モデルを充て、単純な処理は安価で高速なモデルに振り向ける動きだ。OpenAIやAnthropicといったフロンティアモデル企業の収益構造にも影響を及ぼす可能性がある。
CNBCが今月5日(現地時間)に報じた。これまで企業では、性能を最優先して最も高性能な大規模モデルに問い合わせを集約する運用が広がっていた。しかし足元では、用途ごとに必要十分な性能を見極め、モデルを振り分ける方向へと軸足が移りつつある。
背景には、企業内での予算統制の強化がある。最高財務責任者(CFO)や取締役会がAI支出の効率性を厳しく精査し始め、あらゆる業務に最高額のモデルが必要なのかを見直している。直近までは、性能最優先のモデルが事実上の標準として選ばれていたが、請求額が想定を大きく上回るケースも出ており、コスト構造の再点検が進んでいる。
コーディングエージェント「Devin」を開発するCognitionのスコット・ウーCEOは、反復的な業務ほど削減効果が大きいと説明する。定型業務では、用途に見合う性能のモデルを使えば、コスト効率が5~10倍改善する可能性があるという。例えば「米国の第3代大統領は誰か」といった単純な質問では、モデル価格にかかわらず答えはトーマス・ジェファーソンで同じであり、高コストのモデルを使い続ける合理性は乏しいとの見方を示した。
もっとも、現時点でルーティングの導入はなお限定的だ。Gleanのアルビンド・ジェインCEOは、企業向けAI利用の約95%が依然として最も高額なフロンティアモデルで処理されていると推計する。本来はより低価格のモデルで十分対応できる業務まで、同じ高額モデルに振り向けられているという。
こうしたコスト負担は、大手テック企業でも無視できない水準になっている。Ciscoのジートゥ・パテル最高製品責任者(CPO)は、従業員1人当たりのトークン利用コストが週200ドル(約3万円)なら、年換算では約1万ドル(約150万円)に達すると説明した。従業員9万人規模の企業では、年間9億ドル(約1350億円)の支出構造になる計算だ。
Ciscoでは、AIが相当部分のコード生成を担う製品を3万人のエンジニアが開発している。実際の支出が社内予算を大きく上回ったことから、同社は資源配分を見直した。パテル氏は、トークン利用関連の予算を他の支出より優先する形に組み替えたと明らかにした。
AI企業側も、顧客の費用対効果への懸念を意識し始めている。Cognitionは「AI生産性保証」プログラムを打ち出した。Devinが顧客の支払いに見合うエンジニアリング上の価値を生み出せなかった場合、最大1000万ドル(約15億円)を上限に、成果が見合うまで同社が利用コストを負担する内容だ。
ウー氏は、この仕組みについて、業界で主要な論点となっている投資対効果(ROI)の問題に正面から向き合うものだと説明した。トークン消費量やコード行数といった活動指標ではなく、実際に人のエンジニアリング時間をどれだけ削減できたかを見るべきだと指摘。「何十億ものトークンを使っても、成果につながらないことはある」と述べ、企業は活動量ではなく成果を基準にAI活用を判断すべきだとの考えを示した。
この流れは、OpenAIやAnthropicのようなフロンティアモデル企業にとって逆風となる可能性がある。企業が大量の単純業務を、中国などを中心とする低価格なオープンソースモデルへ移し始めれば、高価格帯のモデル企業は幅広い業務から収益を確保しにくくなるためだ。複雑で難度の高い業務に特化する形になれば、プレミアム価格を維持できたとしても、市場全体に占める処理量は縮小しかねない。
ただ、これはフロンティアモデルの価値自体が失われることを意味するものではない。パテル氏は、最先端技術には引き続き価値があるとの見方を示した。一方で、価格体系は変わる可能性が高いとし、研究開発企業は単に高価格を課すのではなく、モデル利用の効率化を進める必要があると語った。
企業の関心は、「AIコストが増えても支出を拡大し続けるか」から、「いかに賢く使うか」へと移っている。これに伴い、価格決定力はプレミアムAIを売る側から、購入する企業側へと移る可能性がある。フロンティアモデルが最難度の業務で上乗せ価格を確保できるとしても、それ以外の業務がどの程度を占めるのかが、主要AI企業の今後の価値評価を左右する焦点になりそうだ。