銀行各社が、AI利用の拡大に伴って膨らむトークン課金コストへの対応を急いでいる。AIサービスの料金体系がサブスクリプション型からトークンベースの従量課金へ移行し、利用量の多い金融機関ほど負担が重くなっているためだ。各行は最上位モデルの一律利用を見直し、SLMや旧モデルの活用、回答の再利用、GPU基盤の内製化などでコスト圧縮を進めている。
米フィンテックメディアのAmerican Bankerが29日、こうした銀行業界の動きを報じた。これまでAIはコスト削減の手段として期待されてきたが、足元ではAIそのものの利用料が新たな負担として浮上している。Anthropic、OpenAI、Microsoftなど主要事業者が、一定期間の定額利用型からデータ処理単位であるトークンに基づく課金へ軸足を移したことで、利用量が多い企業ほどコストが膨らみやすい構図になった。
現場からは負担増を懸念する声も出ている。Royal Bank of Canadaのデイブ・マッケイCEOは5月、同行のトークン使用量が前年同期比で500%増えたと明らかにした。JP Morgan Chaseのザッカリー・アンダーソン最高データ・分析責任者は、一部社員のトークン利用額が年俸を上回る水準に達していると語ったことがある。
PNC Financial Services Groupのビル・デムチェックCEOも、トークン費用への不満を示している。同行では、AIによる生産性向上の効果がトークン課金によって相殺されかねないとみている。デムチェック氏はMorgan Stanleyのカンファレンスで、「AIが銀行の生産性を高めても、その効果がトークン費用で消える可能性がある」と述べた。こうした状況を受け、銀行はAI導入の拡大そのものより、どの業務にどのモデルを充てるかの見直しに乗り出している。
当面の対応として広がっているのが、すべての業務で最上位モデルを使わない運用だ。AIモデルの高度化が進み、自律的な処理能力が高まるにつれてトークン消費も増えているが、銀行内の多くの業務ではそこまでの性能を必要としないとの判断がある。技術企業Neurometricのロブ・メイCEOは、単純な業務に最先端モデルを使うのは過剰だと指摘し、必要な処理に見合うモデルを選ぶ方がコスト面で有利だと説明した。
こうした流れを受け、一部の銀行は最新モデルより低コストな旧モデルや、小型言語モデル(SLM)の活用を進めている。NCのネド・キャロルデータ・自動化責任者は、課題に応じて適切なツールを使うべきだとしたうえで、小切手返送に関する方針や手続きを理解する業務に、難度の高い数学問題を解くような高性能モデルは不要だと述べた。
トークン使用量そのものを減らす工夫も進む。代表例がオープンソースモデルの活用だ。同じ質問が繰り返される場合には、既存のAI回答を保存して再利用する手法も有効とされる。メイ氏は、類似の質問と回答が反復されるなら、回答を蓄積してまずデータベースを検索し、必要な場合にのみモデルを呼び出すことでトークン費用を抑えられると述べた。
自社インフラの拡充も有力な対策として浮上している。外部AI事業者への依存を抑え、自前の計算資源を確保する動きだ。PNCはGPU計算基盤を構築し、外部AI事業者のトークン課金への依存を下げる方針を示した。デムチェック氏は、自社の大規模言語モデル運用に向け、社内で処理できる能力を高める考えを説明した。
業務によっては、AIより人手の方が低コストだとの見方もある。特に失敗時のコストが大きい業務では、自動化より従来の人員中心の運用の方が合理的になり得るという。AI導入が必ずしもコスト削減に直結しないなか、銀行各社はモデル選定、インフラ内製化、業務ごとの適用範囲の見直しを通じて、AIコスト管理の再構築を進めている。