Microsoftは、生成AIへの問い合わせ1件当たりの電力消費が、これまで広く引用されてきた推計より大幅に小さい可能性があるとする分析を公表した。実際のサービス運用を前提に再試算した結果、従来の推計は最大20倍過大だった可能性があるとしている。
米国時間16日付のGigazineによると、Microsoftは自社クラウドのブログで、人工知能(AI)推論の電力効率に関する分析結果を公表した。
一般的な問い合わせで回答が約300トークンになるケースでは、消費電力の中央値は0.31Whだった。分析対象の中央50%は0.16〜0.60Whに収まり、1000Wの電子レンジを約0.6〜2秒動かすのに近い電力量だという。
今回の公表は、生成AIの普及に伴ってデータセンターの電力需要が急増しているとの懸念が強まる中で行われた。Copilotや各種チャットボットでメール要約や会議の整理、コード生成などを依頼すると、データセンター側では大規模言語モデル(LLM)の推論処理が走る。入力や応答が長くなるほど処理トークン数が増え、消費電力も膨らむ。
Microsoftは、従来の電力推計が実運用を十分に反映していなかったと指摘した。多数のリクエストをまとめて処理するバッチ処理や、大規模サービス環境でのGPU稼働率が、既存の試算では十分に織り込まれていなかったと説明する。集計対象をGPUに限るか、CPUや冷却設備まで含めるかでも結果に差が出るとしている。
分析では、2000億超のパラメータを持つ大規模モデルを、NVIDIA H100 GPUを8基搭載したサーバーで稼働させる条件を想定した。トークン処理速度、サーバー消費電力、データセンター電力効率指数(PUE)を反映し、実サービスに近いシナリオを組んだという。
冷却に伴う水使用量の試算も示した。一般的な問い合わせ1件当たりの水使用量は0〜0.067mLで、中央値はティースプーンの100分の1未満だったとしている。
一方で、すべてのAIリクエストが同じ水準の資源を使うわけではない点も強調した。長文のコード生成や多段の推論のように、応答が5000トークン規模まで伸びるケースでは、消費電力の中央値は3.91Whに増える。一般的な問い合わせの約13倍に当たる。応答が長いほど電力消費は急増し、今後のAIサービスのエネルギー効率は、件数そのものより処理方法や応答規模の影響を強く受けると説明した。
サービス全体でみると差はさらに広がる。一般的な問い合わせを1日10億件処理する場合、必要な電力量は約0.7GWhと試算した。追加の最適化を施せば、約0.3GWhまで抑えられるという。一方、全リクエストの10%が長い推論処理に置き換わるだけで、電力需要は約1.7GWhに増え、最適化後でも約0.8GWhが必要になると分析した。
Microsoftは、今後も効率改善の余地は大きいとみている。小型モデルの活用拡大、インフラの最適化、次世代GPUや自社製AIチップの導入によって、問い合わせ1件当たりのエネルギー効率を8〜20倍高められるとしている。
今回の発表は、AIサービスの電力負担を巡る議論を意識した内容でもある。業界では、生成AIへの問い合わせ1回に数Whが必要だとする推計や、ChatGPTの1回の利用はGoogle検索より約10倍多く電力を消費するとの見方が広く引用されてきた。
Microsoftは、実運用のGPU稼働率とバッチ処理を織り込めば、こうした推計は実態より4〜20倍大きかった可能性があると主張する。同時に、長い応答や複雑な推論では電力消費が急増することも示しており、AIの電力負荷を評価するうえでは、リクエスト件数だけでなく、運用方法や応答長が重要な要素になると位置付けた。