Datadogは4月23日、GPUモニタリングの正式提供を開始したと発表した。単一ソリューションでAIスタック全体を可視化し、GPUワークロードのボトルネック特定やコスト抑制を支援する。
同社によると、新機能はAIスタック全体を一元的に把握できるようにするものだ。GPUワークロードのどこで処理が滞っているかを特定しやすくし、運用コストの削減にもつなげる。
現在、多くのGPU関連ツールは、デバイスの稼働状況を示す基本指標の提供にとどまっているという。そのため、部門ごとのリソース利用の偏りに起因するボトルネックの把握や、学習・推論ワークロードが失敗した原因の特定にはつながりにくいとしている。どのデバイスが遊休状態にあるのか、あるいは非効率に使われているのかも見えにくいという。
Datadogは、GPUモニタリングにより、プラットフォームエンジニアリングチームと機械学習チームが共通のビューで課題を分析できるようになるという。これにより、AI基盤の効率的な拡張を後押しするとしている。
著者について