Bên trong Trung tâm dữ liệu AI quốc gia tại Gwangju, được xây dựng trên nền tảng GPU Nvidia H100. Ảnh: NHN Cloud

MLCommons ngày 1/4 (giờ địa phương) công bố kết quả benchmark MLPerf Inference v6.0, với 451 kết quả do 23 công ty nộp lên. Bộ số liệu này tạo cơ sở để so sánh trực tiếp hiệu năng các bộ tăng tốc AI dành cho trung tâm dữ liệu của những hãng lớn như Nvidia, AMD và Intel.

Trong phiên bản lần này, MLCommons bổ sung các mô hình AI tạo sinh quy mô lớn như DeepSeek-R1 và Llama 3.1 405B vào danh mục benchmark. Tổ chức này cũng lần đầu mở rộng sang các mô hình video và đa phương thức, với Qwen3-VL 235B và Wan 2.2, cho thấy phạm vi đánh giá suy luận tại trung tâm dữ liệu đang dịch chuyển từ tạo văn bản sang các tác vụ đa dạng hơn.

Nvidia nổi bật ở nhiều hạng mục nhờ các bộ tăng tốc GB300 và B300 dựa trên kiến trúc Blackwell. Trong bài đo server với DeepSeek-R1, hãng triển khai cụm GB300 gồm 72 node, mỗi node 4 GPU, tương đương 288 GPU, đạt thông lượng 1,55 triệu token/giây.

Ở cấu hình một node với 8 GPU B300, hệ thống đạt 107.317 token/giây trong bài đo server với Llama2 70B và 42.721 token/giây với DeepSeek-R1. Các đối tác như Cisco và ASUSTeK cũng nộp kết quả cho hệ thống dùng B300, đạt khoảng 100.000-110.000 token/giây ở Llama2 70B.

AMD đưa vào thử nghiệm cụm GPU Instinct MI355X gồm 11 node, mỗi node 8 GPU, tổng cộng 88 GPU. Ở bài đo server với Llama2 70B, hệ thống đạt 1.016.375 token/giây.

Với cấu hình một node gồm 8 MI355X, AMD đạt 100.282 token/giây, tương đương mức của B300 một node. Dell, HPE, Giga Computing, Supermicro và Oracle cũng tham gia với các hệ thống MI355X, ghi nhận thông lượng khoảng 93.000-98.000 token/giây. Trong khi đó, Cisco và MiTAC nộp kết quả cho hệ thống MI350X, đạt 76.000-77.000 token/giây.

Đại diện AMD cho biết Instinct MI355X đã vượt mốc 1 triệu token/giây với các tác vụ AI tạo sinh mới, qua đó cho thấy khả năng mở rộng cho suy luận AI. Theo AMD, kết quả lần này phản ánh bước nhảy rõ rệt về thông lượng giữa các thế hệ, đồng thời cho thấy năng lực cạnh tranh ở những LLM chủ chốt như Llama 2 70B trong cấu hình một node.

AMD cũng cho biết khả năng mở rộng đa node đã được kiểm chứng thông qua hệ sinh thái đối tác, trong đó có Dell, HPE và Cisco.

Intel nộp kết quả với cấu hình kết hợp bộ xử lý Xeon 6 và GPU Arc Pro dòng B. Hệ thống dùng 4 GPU Arc Pro B60 đạt 1.106 token/giây trong bài đo server với Llama2 70B, trong khi cấu hình 4 Arc Pro B70 đạt 1.698 token/giây.

Dù thông lượng thấp hơn so với các GPU tăng tốc chuyên dụng, kết quả này cho thấy Intel đang mở rộng danh mục sản phẩm sang thị trường suy luận dựa trên CPU. Hãng cũng nộp kết quả chỉ dùng bộ xử lý Xeon 6980P, đạt 9,6 token/giây trong bài đo offline với Llama 3.1 8B.

Anil Nanduri, lãnh đạo mảng sản phẩm AI và GTM của nhóm Data Center tại Intel, cho biết việc kết hợp Xeon 6 với Arc Pro dòng B là bước đi nhằm mở rộng lựa chọn và tối ưu giá trị cho khách hàng. Ông nói Intel hướng tới các giải pháp thực tiễn, cân bằng giữa hiệu năng và chi phí, phục vụ chuyên gia đồ họa và nhà phát triển AI toàn cầu, từ LLM đến các tác vụ học máy truyền thống.

Từ khóa

#MLPerf #MLCommons #suy luận AI #trung tâm dữ liệu #Nvidia #AMD #Intel #GPU #LLM
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.