Microsoft cho rằng cần tính đến mức sử dụng GPU và xử lý theo lô để đánh giá sát hơn điện năng tiêu thụ của AI trong môi trường vận hành thực tế. Ảnh: Shutterstock

Microsoft cho rằng mức điện năng tiêu thụ của các mô hình ngôn ngữ lớn (LLM) trong thực tế có thể thấp hơn đáng kể so với những con số đang được nhắc đến phổ biến trên thị trường. Theo hãng, nếu tính đến điều kiện vận hành thực tế của dịch vụ, điện năng cho mỗi truy vấn AI có thể thấp hơn từ 4 đến 20 lần so với các ước tính trước đây.

Theo Gigazine, ngày 16/6/2026, Microsoft đã đăng trên blog điện toán đám mây của mình một phân tích về hiệu suất năng lượng của suy luận AI.

Trong phân tích này, Microsoft cho biết với giả định độ dài phản hồi trung bình khoảng 300 token, mức tiêu thụ điện trung vị cho mỗi truy vấn là 0,31Wh. Khoảng 50% mẫu quan sát nằm trong biên độ 0,16-0,60Wh. Mức này tương đương lượng điện cần để vận hành một lò vi sóng 1.000W trong khoảng 0,6-2 giây.

Phân tích được công bố trong bối cảnh lo ngại về nhu cầu điện của các trung tâm dữ liệu ngày càng tăng cùng làn sóng AI tạo sinh. Khi người dùng yêu cầu Copilot hoặc chatbot tóm tắt email, tổng hợp cuộc họp hay viết mã, trung tâm dữ liệu sẽ thực hiện suy luận LLM. Truy vấn và phản hồi càng dài, số token cần xử lý càng lớn, kéo theo điện năng tiêu thụ tăng lên.

Microsoft cho rằng các ước tính trước đây chưa phản ánh đầy đủ cách dịch vụ AI được vận hành trong thực tế. Theo hãng, nhiều phép tính cũ chưa tính đúng tác động của xử lý theo lô, tức xử lý đồng thời nhiều yêu cầu, cũng như mức sử dụng GPU trong môi trường dịch vụ quy mô lớn. Kết quả cũng có thể chênh lệch đáng kể tùy cách tính chỉ gồm GPU hay bao gồm cả CPU và hệ thống làm mát.

Nhóm nghiên cứu xây dựng kịch bản một mô hình lớn với hơn 200 tỷ tham số chạy trên máy chủ dùng 8 GPU Nvidia H100. Phân tích này đưa vào tốc độ xử lý token, mức tiêu thụ điện của máy chủ và chỉ số hiệu quả sử dụng điện của trung tâm dữ liệu (PUE) nhằm mô phỏng điều kiện gần với môi trường dịch vụ thực tế.

Bên cạnh điện năng, Microsoft cũng công bố ước tính về lượng nước sử dụng cho làm mát. Theo đó, với mỗi truy vấn thông thường, lượng nước tiêu thụ vào khoảng 0-0,067 mL. Ở mức trung vị, con số này còn thấp hơn 1/100 muỗng cà phê.

Tuy nhiên, Microsoft nhấn mạnh không phải mọi truy vấn AI đều tiêu tốn tài nguyên như nhau. Với các phản hồi dài khoảng 5.000 token, chẳng hạn tác vụ tạo mã dài hoặc suy luận nhiều bước, mức tiêu thụ điện trung vị tăng lên 3,91Wh, cao hơn khoảng 13 lần so với truy vấn thông thường. Hãng cho rằng khi độ dài phản hồi tăng, điện năng tiêu thụ cũng tăng nhanh. Vì vậy, hiệu quả năng lượng của dịch vụ AI trong tương lai có thể chịu tác động lớn hơn bởi cách xử lý và quy mô phản hồi, thay vì chỉ bởi số lượng truy vấn.

Ở quy mô toàn dịch vụ, chênh lệch này càng rõ hơn. Microsoft ước tính nếu hệ thống xử lý 1 tỷ truy vấn thông thường mỗi ngày, nhu cầu điện sẽ vào khoảng 0,7GWh và có thể giảm xuống còn khoảng 0,3GWh nếu áp dụng thêm các biện pháp tối ưu. Ngược lại, nếu chỉ 10% tổng số yêu cầu chuyển sang các tác vụ suy luận dài, nhu cầu điện có thể tăng lên khoảng 1,7GWh; ngay cả sau tối ưu hóa vẫn ở mức khoảng 0,8GWh.

Microsoft cũng cho rằng dư địa cải thiện hiệu suất vẫn còn lớn. Theo hãng, việc mở rộng sử dụng mô hình nhỏ hơn, tối ưu hạ tầng, đồng thời triển khai GPU thế hệ mới và chip AI tự phát triển có thể giúp nâng hiệu quả năng lượng trên mỗi truy vấn thêm 8-20 lần.

Động thái này được xem là phản hồi trực tiếp trước tranh luận ngày càng lớn về gánh nặng điện năng của các dịch vụ AI. Thời gian qua, thị trường thường viện dẫn các ước tính cho rằng mỗi truy vấn AI cần tiêu tốn vài Wh điện, trong đó có nhận định một truy vấn ChatGPT tiêu thụ điện gấp khoảng 10 lần một lượt tìm kiếm trên Google.

Tuy vậy, Microsoft cho rằng khi tính đến mức sử dụng GPU và xử lý theo lô trong môi trường vận hành thực tế, những ước tính này có thể cao hơn thực tế từ 4 đến 20 lần. Dù vậy, hãng cũng thừa nhận điện năng tiêu thụ sẽ tăng nhanh với các phản hồi dài và các tác vụ suy luận phức tạp, qua đó chuyển trọng tâm tranh luận từ số lượng truy vấn sang cách vận hành dịch vụ và độ dài phản hồi.

Từ khóa

#Microsoft #LLM #AI #suy luận AI #GPU #Nvidia H100 #PUE #điện năng #trung tâm dữ liệu
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.