Datadog ngày 23/4 công bố GPU Monitoring, công cụ giám sát GPU mới nhằm giúp doanh nghiệp tối ưu hiệu năng và giảm chi phí vận hành các hệ thống trí tuệ nhân tạo (AI).
Theo Datadog, GPU Monitoring cung cấp khả năng giám sát hợp nhất trên toàn bộ hạ tầng AI trong một nền tảng duy nhất. Nhờ đó, khách hàng có thể xác định các workload chạy trên GPU đang gây ra điểm nghẽn, đồng thời cắt giảm chi phí vận hành.
Công ty cho biết phần lớn công cụ giám sát GPU hiện nay mới chỉ dừng ở việc cung cấp các chỉ số cơ bản về tình trạng thiết bị. Những công cụ này thường không phản ánh được các điểm nghẽn phát sinh từ tình trạng phân bổ tài nguyên mất cân đối giữa các thành phần trong hệ thống, đồng thời cũng khó làm rõ nguyên nhân thất bại của các tác vụ huấn luyện và suy luận.
Datadog cũng nhấn mạnh các giải pháp hiện có còn hạn chế trong việc phát hiện những thiết bị đang nhàn rỗi hoặc chưa được khai thác hiệu quả.
Với GPU Monitoring, Datadog cho biết các nhóm kỹ sư nền tảng và nhóm machine learning có thể cùng phân tích sự cố trên một giao diện hợp nhất. Công cụ này được kỳ vọng sẽ hỗ trợ doanh nghiệp mở rộng hạ tầng AI theo hướng hiệu quả hơn về chi phí.