图片来源:Datadog

AI可观测性与安全平台Datadog于4月23日宣布,正式推出GPU监控功能。

Datadog表示,这项功能通过单一方案提供覆盖整个AI技术栈的统一可观测视图,帮助客户识别存在瓶颈的GPU工作负载,优化资源使用并降低成本。

该公司指出,目前多数GPU监控工具仍停留在提供设备状态基础指标的层面,难以呈现因跨团队资源分配失衡而引发的瓶颈,也无法解释训练和推理工作负载失败的具体原因。同时,这类工具也难以及时发现哪些设备处于闲置或利用不足状态。

Datadog称,GPU监控功能可提供统一视图,支持平台工程团队与机器学习团队协同分析和排查问题,从而以更高效率扩展AI能力,并更好地控制成本。

关键词

#Datadog #GPU监控 #AI可观测性 #AI技术栈 #GPU工作负载 #资源使用 #平台工程 #机器学习
版权所有 © DigitalToday。未经授权禁止转载或传播。