Việc gói Claude Code, tác nhân lập trình AI do Anthropic phát triển, bị lộ đang làm dấy lên nhận định rằng nhu cầu chip nhớ cho AI có thể cao hơn đáng kể so với các ước tính trước đây. Diễn biến này cũng cho thấy thị trường có thể chưa phản ánh đầy đủ nhu cầu hạ tầng phát sinh từ làn sóng AI agent.
Ngày 31/3, Chaofan Shou, CTO của công ty an ninh mạng Mỹ Fuzzland, cho biết ông phát hiện gói Claude Code phiên bản 2.1.88 phát hành trên kho npm chứa toàn bộ tệp sourcemap phục vụ gỡ lỗi nội bộ. Sự cố này khiến khoảng 512.000 dòng mã bị lộ ra ngoài.
Anthropic cho biết gói bị rò rỉ không chứa dữ liệu khách hàng hay thông tin định danh. Công ty khẳng định đây không phải sự cố xâm nhập, mà là lỗi con người trong quá trình đóng gói.
Theo phần mã bị lộ, Claude Code sử dụng khoảng 15 GB bộ nhớ ngay cả khi không hoạt động. Khi vận hành thực tế, mức dùng bộ nhớ có thể tăng gấp 8-9 lần. Số liệu này được ghi nhận trên máy tính cá nhân của một lập trình viên, không phải trên máy chủ.
Nguyên nhân tiêu tốn bộ nhớ lớn nằm ở chính cấu trúc tính năng của sản phẩm. Claude Code tiếp nhận yêu cầu bằng ngôn ngữ tự nhiên, để AI tự quyết định công cụ cần dùng, kiểm tra quyền truy cập, thực thi tác vụ, sau đó trả kết quả lại cho mô hình để tiếp tục vòng xử lý kế tiếp.
Trong mã nguồn còn xuất hiện tính năng KAIROS, được thiết kế như một chế độ agent hoạt động liên tục, cho phép quy trình tiếp tục chạy nền mà không cần người dùng can thiệp. Điều này đồng nghĩa Claude Code vẫn có thể tiếp tục hoạt động ngay cả khi người dùng rời máy, qua đó duy trì mức sử dụng bộ nhớ thường trực.
Một tính năng khác là AutoDream, vận hành thêm một phiên Claude riêng để sắp xếp lại lịch sử công việc tích lũy trong thời gian người dùng nghỉ. Nói cách khác, ngay cả khi không có thao tác trực tiếp, hệ thống vẫn tiếp tục suy luận để tự tổ chức lại ngữ cảnh công việc. Càng xử lý tinh vi, nhu cầu tính toán và bộ nhớ càng tăng.
Ngoài ra, mã nguồn cho thấy Claude Code đã triển khai cơ chế nâng khối lượng ngữ cảnh hội thoại mà hệ thống xử lý trong mỗi lượt lên gấp 5 lần. Khi lượng ngữ cảnh tăng, dung lượng bộ nhớ máy chủ cần để lưu tạm dữ liệu cũng tăng tương ứng.
Nếu kết hợp mô hình đa tác nhân, trong đó một người dùng có thể đồng thời vận hành 5-15 agent, với các phiên KAIROS luôn bật, mức tiêu thụ bộ nhớ bình quân trên mỗi người dùng có thể tăng nhanh hơn nhiều so với tốc độ tăng số người dùng.
Theo đó, giả định trước đây rằng nhu cầu bộ nhớ AI chỉ tăng tương ứng với quy mô người dùng có thể không còn phù hợp. Từ trước đến nay, các phân tích về nhu cầu bộ nhớ AI chủ yếu tập trung vào hạ tầng máy chủ, đặc biệt là bộ nhớ băng thông cao HBM dùng cho H100 và B200. Tuy nhiên, với AI agent, lượng bộ nhớ cần thiết có thể lớn hơn đáng kể so với dự báo cũ.
Ở giai đoạn đầu của AI tạo sinh, mô hình sử dụng chủ yếu là hỏi - đáp, khiến nút thắt hiệu năng tập trung vào GPU. Nhưng với các tác vụ kiểu AI agent như Claude Code, cấu trúc xử lý đã chuyển sang nhiều lớp hơn: diễn giải yêu cầu, gọi công cụ bên ngoài, thực thi, nhận kết quả và tiếp tục ra quyết định.
Trong chuỗi xử lý này, CPU đảm nhiệm vai trò điều phối thứ tự tác vụ, truy cập cơ sở dữ liệu, gọi công cụ bên ngoài, quản lý phiên và phân bổ bộ nhớ. Nếu GPU phụ trách tính toán AI, thì CPU kiểm soát toàn bộ luồng xử lý để các phép tính được thực hiện đúng thứ tự và với đúng dữ liệu. Các tính năng như KAIROS và AutoDream trong mã nguồn bị rò rỉ được xem là ví dụ thực tế cho cấu trúc đa tầng đó.
Xu hướng này cũng phù hợp với động thái gần đây của Nvidia và Arm khi hai hãng ngày càng nhấn mạnh vai trò của CPU trong hạ tầng AI.
Theo Eugene Investment & Securities, Nvidia gần đây đã giới thiệu Vera Rubin Pod như một hệ thống rack tối ưu cho cụm trung tâm dữ liệu. Tỷ trọng CPU trong rack tăng từ 33% ở NVL72 lên 49% ở VR Pod.
Việc Nvidia tung ra riêng Vera CPU rack cũng được xem là tín hiệu cho thấy tầm quan trọng ngày càng lớn của CPU, trong bối cảnh thị trường chuẩn bị cho nút thắt bộ nhớ có thể xuất hiện khi AI agent mở rộng quy mô.
Arm cũng công bố kế hoạch cung cấp AGI CPU dưới dạng hệ thống rack. Eugene Investment & Securities dẫn dự báo của Arm cho biết thị trường CPU cho trung tâm dữ liệu có thể đạt 100 tỷ USD vào năm 2030 nhờ AI agent.
Bên cạnh đó, Arm cũng đưa ra dự báo nội bộ rằng doanh thu AGI CPU có thể đạt 15 tỷ USD mỗi năm trong vòng 5 năm tới.