Mở rộng trung tâm dữ liệu không còn là lời giải duy nhất cho cuộc đua hiệu năng AI. Ảnh: Reve AI

Nhu cầu điện cho AI tăng vọt đang làm lộ rõ giới hạn của các mô hình ngôn ngữ lớn (LLM) dựa trên kiến trúc Transformer. Khi việc chỉ mở rộng trung tâm dữ liệu không còn được xem là lời giải đủ sức đáp ứng nhu cầu tính toán, ngành công nghệ bắt đầu chuyển sự chú ý sang các kiến trúc hậu Transformer với kỳ vọng cải thiện hiệu quả năng lượng.

Theo TechRadar ngày 9/4 (giờ địa phương), vấn đề cốt lõi nằm ở chỗ cách nâng hiệu năng mô hình AI hiện nay vẫn chủ yếu dựa vào việc tăng khối lượng tính toán, thêm nhiều lớp và sử dụng nhiều dữ liệu hơn. Bain & Company dự báo chi tiêu hằng năm liên quan đến trung tâm dữ liệu có thể lên tới 500 tỷ USD vào năm 2030.

Kế hoạch Stargate với sự tham gia của SoftBank, OpenAI và Oracle cũng được xem là nỗ lực nhằm đáp ứng nhu cầu tính toán đang tăng nhanh. Tuy nhiên, các đơn vị vận hành lưới điện cảnh báo nhu cầu từ AI có thể gây sức ép lên nguồn cung và trở thành yếu tố gây bất ổn cho thị trường năng lượng.

Đáng chú ý, sự phổ biến của các mô hình chú trọng suy luận trong thời gian gần đây đang khiến mức tiêu thụ điện tăng thêm. Một nghiên cứu cho thấy prompt dài trên GPT-4o tiêu thụ khoảng 0,42 Wh, trong khi DeepSeek-R1 vượt quá 33 Wh và GPT-4.5 vào khoảng 30 Wh.

Điều đó đồng nghĩa một truy vấn sử dụng prompt có thể tiêu tốn lượng điện còn nhiều hơn mức cần để sạc một chiếc điện thoại thông minh.

Gốc rễ của bài toán chi phí nằm ở chính kiến trúc Transformer. Khi quy mô dữ liệu tăng lên, khối lượng tính toán cũng phình to theo cấp số nhân, đồng thời đòi hỏi liên tục về bộ nhớ tốc độ cao và năng lực xử lý lượng tham số khổng lồ.

Khi bổ sung khả năng suy luận, mức sử dụng token cũng tăng mạnh. Nếu các mô hình trước đây thường chỉ phản hồi với vài trăm token, thì các mô hình gần đây có thể dùng tới hàng nghìn token phục vụ suy luận để tạo ra chuỗi lập luận từng bước.

Về hiệu năng, ngày càng nhiều ý kiến cho rằng lợi ích từ việc mở rộng quy mô không còn lớn như trước. Trong ngành, nhận định rằng các mô hình dựa trên Transformer đang tiến sát ngưỡng mà việc scaling thêm không còn mang lại cải thiện tương xứng ngày càng phổ biến.

Trong bối cảnh đó, một hướng thay thế đang được đưa ra là các cấu trúc mô phỏng não người. Não người vận hành mạng lưới gồm dưới 100 tỷ neuron và hàng trăm nghìn tỷ synapse với công suất khoảng 20 W. Từ gợi ý này, kiến trúc Brain-inspired Dragon Hatchling (BDH) được giới thiệu như một ví dụ.

Thay vì huy động toàn bộ tham số cùng lúc, cấu trúc này chọn lọc kích hoạt các neuron nhân tạo liên quan trực tiếp tới tác vụ. Đồng thời, nó mô phỏng tính dẻo của synapse, tức độ mạnh liên kết có thể thay đổi trong quá trình sử dụng, để nâng hiệu quả học.

Cấu trúc này hướng tới việc giảm chi phí suy luận và lượng token sử dụng bằng cách không vận hành lặp lại toàn bộ mô hình, mà chỉ khai thác phần cần thiết. Một đặc điểm khác là có thể tích lũy tri thức trong quá trình sử dụng thực tế mà không cần tái huấn luyện quy mô lớn theo chu kỳ.

Với doanh nghiệp, cách tiếp cận này có thể giúp giảm áp lực chi phí. Với các công ty AI, đây là hướng đi có khả năng đồng thời cải thiện hiệu năng và hiệu quả năng lượng.

Yếu tố quan trọng khác là khả năng tương thích với hạ tầng hiện có. Nếu có thể triển khai mà không cần thay thế toàn bộ hệ thống, cơ hội ứng dụng thực tế sẽ cao hơn.

Bài toán điện năng của AI vì vậy không còn chỉ là vấn đề môi trường mà đang trở thành bài toán kinh tế. Ngành công nghệ cho rằng nếu xuất hiện một kiến trúc mới có thể cắt giảm mạnh chi phí suy luận, thước đo cạnh tranh trong AI có thể thay đổi. Vấn đề then chốt lúc này là liệu các kiến trúc hậu Transformer có thể chứng minh đồng thời hiệu năng, chi phí và khả năng tương thích trong môi trường thực tế hay không.

Từ khóa

#trí tuệ nhân tạo #AI #Transformer #LLM #tiêu thụ điện #trung tâm dữ liệu #chi phí suy luận #kiến trúc hậu Transformer
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.