Coinbase、AIコストを約半減　「トークンエンジニアリング」を実践

写真左から、Coinbaseのブライアン・アームストロングCEO、Microsoftのニコラス・ブスタマンテ氏（画像はGeminiで編集）

AI活用の拡大に伴いコスト負担が課題となる中、企業の間でAI運用の効率化に向けた取り組みが広がっている。米国の暗号資産取引所大手のCoinbaseは、モデル設定やルーティング、キャッシュの最適化によって、トークン利用を増やしながらAIコストを約半減したと公表した。

この内容は、ブライアン・アームストロングCEOがX（旧Twitter）への投稿で明らかにしたもの。同氏は、コスト抑制の要点は利用制限の強化ではなく、より適切なデフォルトモデルの設定、ルーティング、キャッシュ活用にあると説明した。

Coinbaseは、利用上限を引き下げる代わりに、LLMゲートウェイでGLM 5.2やKimi 2.7といったオープンウェイトモデルをデフォルトに設定する運用を進めている。

同社によると、従業員の91％は利用上限に達した経験がなく、単純な上限引き下げの効果は限定的だという。デフォルトモデルを見直した後も、エンジニアが必要に応じて任意のモデルを選べる体制は維持する。

ルーティングの改善も柱の1つだ。アームストロングCEOによれば、Coinbaseはプロンプトを事前に分析し、キャッシュの有無やモデルごとの料金を踏まえて、最適なモデルに自動で振り分ける仕組みを構築した。

同氏は「複雑な計画立案には高性能モデルが必要だが、単純な実行であれば低コストのモデルで十分だ。最終的には、どのモデルを使うかという判断自体をAIで自動化するのが目標だ」としている。

キャッシュの活用も強化した。Coinbaseは、すべてのリクエストでキャッシュを参照し、再利用できるものは極力使う運用を徹底している。キャッシュは過去のプロンプトと回答を保存し、同一または類似の要求があった際に再計算を避けて応答を返す仕組みだ。

オープンソースのチャットAIインターフェース「LibreChat」に適切にキャッシュを適用した結果、全リクエストの60％をキャッシュ済みの回答で処理できるようになった。従来は5％にとどまっていたという。

入力コンテキストの圧縮では、作業を切り替える際に新しいセッションを開始することや、対象ファイルの文脈範囲を絞ること、使っていないツールの接続を切ることに重点を置いた。

アームストロングCEOは「目標はトークン数そのものではなく、無駄なトークンを減らすことだ」と強調。「利用を抑えるのではなく、指数関数的な成長を持続可能にするインフラを整えることが重要だ」と述べた。

Microsoftのニコラス・ブスタマンテ氏も、アームストロングCEOの投稿に賛同を示し、今後のAIコスト最適化の鍵としてバックグラウンドエージェントを挙げた。

同氏は、現在は「トークンエンジニアリング時代」の入り口にあるとの見方を示した。AIをより多く使う段階から、適切なモデルを適切なタイミングで使い、キャッシュとトークン消費を最適化する段階へ移りつつあるという。

次の最適化手段として同氏が注目するのが、バックグラウンドエージェントだ。コードレビュー、評価、リファクタリング、データ抽出、ドキュメント更新、セキュリティスキャン、受信箱の整理、CRMのデータ補完、テスト生成、移行計画の策定などは、必ずしも即時処理を要しない。30分後や2時間後、あるいは1日後でもよい業務だと説明している。

また同氏は、固定的なトークン料金体系は今後変わるとの見方も示した。GPUの稼働状況は時間帯によって逼迫と余裕が入れ替わるため、勤務時間中は対話型の利用が集中する一方、バックグラウンド処理は需要の薄い時間帯により安価に実行できる可能性があるという。

その上で、「固定価格のトークン」から「遅延許容型のトークン価格」への移行が進むと予測した。すぐに必要な処理はリアルタイム価格で、1時間待てる処理はより安く、24時間待てる処理は大幅に安くなるといった構造を想定している。

同氏は「将来のAIスタックは、モデル品質、キャッシュ状況、許容遅延、GPU容量、ビジネス価値を同時に最適化する方向へ進化する」と指摘した。エージェントは、どのモデルを使うかだけでなく、いつ処理を実行するかまで判断するようになるとしている。

Chi-gyu Hwang delight@d-today.co.kr

キーワード