AI可观测性与安全平台Datadog于4月23日宣布,正式推出GPU监控功能。
Datadog表示,这项功能通过单一方案提供覆盖整个AI技术栈的统一可观测视图,帮助客户识别存在瓶颈的GPU工作负载,优化资源使用并降低成本。
该公司指出,目前多数GPU监控工具仍停留在提供设备状态基础指标的层面,难以呈现因跨团队资源分配失衡而引发的瓶颈,也无法解释训练和推理工作负载失败的具体原因。同时,这类工具也难以及时发现哪些设备处于闲置或利用不足状态。
Datadog称,GPU监控功能可提供统一视图,支持平台工程团队与机器学习团队协同分析和排查问题,从而以更高效率扩展AI能力,并更好地控制成本。
记者信息