Mở rộng năng lực bộ nhớ HBM. Ảnh: SK

Nhu cầu token AI có thực sự chuyển thành giá trị kinh tế và được phản ánh trong số liệu vĩ mô hay chưa đang trở thành biến số then chốt để dự báo cung - cầu DRAM và bộ nhớ băng thông cao (HBM). Dù nhiều doanh nghiệp tại Computex 2026 đồng loạt dự báo nhu cầu token sẽ tăng vọt đến năm 2030, giới công nghiệp cho rằng triển vọng đơn hàng bộ nhớ vẫn khó xác định rõ nếu chưa có cơ sở thống kê để kiểm chứng nhu cầu cuối.

Kỳ vọng về mức tăng của nhu cầu AI được nhấn mạnh mạnh mẽ tại Computex 2026, sự kiện năm nay diễn ra với chủ đề “AI Together” và có quy mô lớn nhất từ trước đến nay. Phát biểu ngày 1/6 tại Taipei, CEO Qualcomm Cristiano Amon dự báo lượng token AI tiêu thụ trên toàn cầu hiện ở mức khoảng 31,7 tỷ token mỗi 10 giây và có thể tăng lên 1.270 tỷ token vào năm 2030, tương đương gần 40 lần.

Theo ông, AI hội thoại hiện cần khoảng 10.000 token cho mỗi tác vụ, AI suy luận tiêu thụ khoảng 100.000 token, trong khi AI tác tử (agentic AI) có thể dùng tới 1 triệu token cho mỗi tác vụ. Lập luận được đưa ra là khi các tác tử AI vận hành liên tục theo “tốc độ máy” thay vì “tốc độ con người”, nhu cầu token sẽ tăng theo hướng mang tính cấu trúc.

Ở phía cung, các thông điệp cũng đi theo cùng một chiều. Ngày 2/6 tại Computex, Chủ tịch SK Group Chey Tae-won nhận định tình trạng thắt chặt bộ nhớ sẽ kéo dài đến năm 2030, đồng thời cho biết SK hynix sẽ tăng gấp đôi năng lực sản xuất wafer trong 5 năm tới.

Ông cho rằng nhu cầu caching càng lớn thì nhu cầu bộ nhớ càng tăng. Bên cạnh làn sóng đầu tư vào trung tâm dữ liệu AI của các tập đoàn toàn cầu, sự xuất hiện của AI PC cũng đang tạo thêm động lực cho thị trường bộ nhớ. Về phía nguồn cung, ông lưu ý việc xây dựng một nhà máy bán dẫn mới mất ít nhất 3 năm, còn dự án xây dựng từ đầu (greenfield) cần hơn 5 năm.

Micron cũng đưa ra đánh giá tương tự. Sumit Sadana, Giám đốc kinh doanh của hãng, nhấn mạnh xu hướng chuyển sang cấu trúc lấy bộ nhớ làm trung tâm, đồng thời cho biết độ dài ngữ cảnh AI đang tăng gấp 30 lần mỗi năm, còn dung lượng bộ nhớ trên mỗi máy chủ đã tăng gấp đôi trong ba năm qua.

Tuy nhiên, vấn đề nằm ở chỗ hiện chưa có số liệu đủ sức kiểm chứng các dự báo này. Theo các phân tích, dù 37% tổng lượng token được sử dụng trong lĩnh vực máy tính và toán học, số liệu đầu tư phần mềm của Mỹ vẫn chưa lệch đáng kể khỏi xu hướng trước đó.

Nói cách khác, nếu hơn một phần ba token đang được dùng cho viết mã và tính toán toán học, các hoạt động này lẽ ra phải để lại dấu vết trong thống kê sản xuất hoặc đầu tư phần mềm. Nhưng cho đến nay, các chỉ số vĩ mô vẫn chưa xác nhận được sự thay đổi tương ứng. Điều này cho thấy chỉ số đầu vào là mức tiêu thụ token và chỉ số đầu ra là số liệu kinh tế hiện vẫn đang phản ánh hai bức tranh khác nhau.

Sự chênh lệch giữa chi phí đầu vào và kết quả đầu ra cũng ngày càng rõ. Điện năng của trung tâm dữ liệu có thể đo bằng watt, còn đầu tư thiết bị được ghi nhận bằng USD, nên chi phí đầu vào tương đối dễ định lượng. Ngược lại, phần lớn đầu ra do AI tạo ra vẫn chưa được phản ánh trong hệ thống thống kê.

Một phần giá trị có thể đã được hấp thụ dưới dạng nâng cao năng suất nội bộ hoặc dịch vụ miễn phí, tức không đi qua giao dịch thị trường và vì vậy không được ghi nhận vào GDP. Chính sự bất đối xứng này khiến thị trường khó xác định liệu nhu cầu token hiện nay là nhu cầu mới mang tính cấu trúc, hay chỉ là mức sử dụng tạm thời trong giai đoạn thử nghiệm và triển khai. Dù mới chỉ nhìn rõ phía đầu vào, các quyết định mở rộng đầu tư vẫn đang được đẩy mạnh.

Nhu cầu cấu trúc hay chỉ mang tính thử nghiệm?

Câu trả lời cho câu hỏi này có tác động trực tiếp đến quyết định đầu tư của ngành bộ nhớ. Nếu nhu cầu token thực sự là nhu cầu mới, làn sóng mở rộng công suất hiện nay có thể được lý giải. Ngược lại, nếu tỷ trọng sử dụng tạm thời còn lớn, đơn hàng có thể suy giảm bất ngờ. Ngay cả trong trường hợp nhu cầu tiếp tục duy trì, các công nghệ tối ưu hóa cũng có thể làm thay đổi cấu trúc nhu cầu bộ nhớ.

Theo iM Securities, công nghệ nén TurboQuant mà Google đang áp dụng một phần cho Gemini 3.0 có thể cắt giảm hơn 6 lần dung lượng bộ nhớ ngắn hạn KV cache. Điều đó đồng nghĩa cùng một dung lượng HBM có thể phục vụ lượng người dùng lớn hơn gấp 6 lần. Tại Computex, việc Intel công bố GPU trung tâm dữ liệu Crescent Island sử dụng LPDDR5X 480GB thay vì HBM cũng được xem là một hướng tiếp cận thay thế trong bối cảnh tương tự.

Trong ngắn hạn, tín hiệu đơn hàng vẫn tích cực. Trong bài phát biểu của mình, CEO Nvidia Jensen Huang đã giới thiệu chuỗi cung ứng cho nền tảng thế hệ mới Vera Rubin và nhắc tới SK hynix với vai trò nhà cung cấp HBM4. Samsung Electronics cũng tăng tốc khi CTO mảng bán dẫn Song Jae-hyuk lần đầu công bố nguyên mẫu HBM thế hệ thứ 8.

Dù vậy, các đơn hàng này hiện vẫn được xây dựng chủ yếu trên dự báo nhu cầu của khách hàng, chưa đồng nghĩa với việc tính bền vững của nhu cầu cuối đã được kiểm chứng. Bài toán xác nhận nhu cầu thực vẫn còn bỏ ngỏ.

Điểm then chốt là thời điểm tính bền vững của nhu cầu token được phản ánh và xác nhận bằng số liệu thống kê. Chừng nào chưa có hệ thống đo lường đầy đủ cho đầu ra, độ lệch giữa dự báo của nhà cung ứng và các chỉ số vĩ mô gần như khó tránh khỏi. Và chính độ lệch đó có thể trở thành nguồn gốc của những tranh luận mới về chu kỳ ngành.

Trong giai đoạn hiện nay, khả năng nhìn thấy đơn hàng của Samsung Electronics và SK hynix được dự báo vẫn sẽ phụ thuộc lớn vào dự báo từ phía khách hàng. Một đại diện trong ngành nhận định thời điểm nhu cầu token được chứng minh bằng đầu ra thực tế sẽ là bước ngoặt của chu kỳ bộ nhớ.

Từ khóa

#AI #token AI #DRAM #HBM #SK hynix #Samsung Electronics #Nvidia #Qualcomm #Micron #Computex 2026
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.