数万のKubernetesクラスタを分析した結果、平均使用率はGPUが5%、CPUが8%、メモリが20%にとどまった。AI・機械学習ワークロードでもGPUの低稼働が目立った。Techzineが4月21日(現地時間)、Cast AIの調査を引用して報じた。
Kubernetesは、複数サーバに分散したアプリケーションコンテナのデプロイや運用を自動化するオープンソースのプラットフォームとして普及が進んでいる。一方で、導入拡大に伴い、企業が負担するクラウド費用と実際のリソース利用とのギャップが広がっているとの指摘もある。
今回の調査では、インフラ運用の効率化を支えるはずのKubernetes環境で、実際にはリソース活用が進んでいない実態が浮かんだ。とりわけAI・機械学習ワークロードでもGPUの平均使用率は5%にとどまった。遊休GPUは1時間当たり数ドルのコストが発生する一方、遊休CPUのコストは数セント程度にとどまるため、GPUの無駄がもたらす経済的損失は相対的に大きいという。
Cast AIは、この背景にある要因として、一度きりのリソースサイジングを挙げた。デプロイ時点で設定を最適化しても、ワークロードやトラフィックのパターンは継続的に変化するため、6カ月前に適切だった設定が現在も最適とは限らないという。スポットインスタンスの選択やオートスケーラーの設定、ノードのライフサイクル管理でも同様の課題があるとした。
その上で同社は、インフラコストが最適な状態から外れていくのを防ぐには、自律的かつ継続的な最適化が必要だと強調した。Cast AIは、Kubernetes環境におけるクラウドコストの自動最適化プラットフォームを提供している。