Từ trái sang: Brian Armstrong, CEO Coinbase, và Nicholas Bustamante của Microsoft. Ảnh minh họa được biên tập bằng Gemini.

Coinbase, sàn giao dịch tiền số lớn nhất Mỹ, cho biết đã giảm gần một nửa chi phí AI trong bối cảnh mức sử dụng token vẫn tiếp tục tăng. Theo chia sẻ của CEO Brian Armstrong trên mạng xã hội X, trọng tâm của công ty không nằm ở việc giảm hạn mức sử dụng, mà ở tối ưu mô hình nền tảng, điều phối truy vấn, cache và rút gọn context.

Một trong những thay đổi đầu tiên là thử nghiệm đưa các mô hình open-weight như GLM 5.2 và Kimi 2.7 trở thành lựa chọn mặc định tại cổng LLM, thay vì siết mức sử dụng.

Coinbase cho biết 91% nhân viên chưa từng dùng hết hạn mức, nên việc hạ hạn mức gần như không mang lại hiệu quả. Sau khi thay đổi mô hình mặc định, các kỹ sư vẫn có thể chủ động chọn mô hình khác nếu cần.

Bên cạnh đó, công ty cũng xem việc cải thiện routing là yếu tố then chốt. Theo Armstrong, Coinbase đang xây dựng hệ thống tự động điều phối yêu cầu bằng cách phân tích prompt, kiểm tra trạng thái cache và so sánh chi phí giữa các mô hình để chọn phương án phù hợp nhất.

Ông cho biết các tác vụ lập kế hoạch phức tạp cần mô hình hiệu năng cao, trong khi những tác vụ thực thi đơn giản có thể dùng mô hình rẻ hơn. Mục tiêu cuối cùng là dùng AI để tự động hóa chính việc chọn mô hình.

Coinbase đồng thời thiết kế hệ thống để các yêu cầu có thể tận dụng cache ở mức tối đa. Cache là lớp lưu trữ tạm, giữ lại prompt và câu trả lời đã được xử lý trước đó để tái sử dụng khi gặp yêu cầu trùng hoặc tương tự, thay vì phải tính toán lại từ đầu.

Khi triển khai cache một cách hệ thống cho LibreChat, giao diện chat AI mã nguồn mở, Coinbase cho biết khoảng 60% tổng số yêu cầu có thể được xử lý bằng dữ liệu đã lưu, tăng mạnh so với mức 5% trước đó.

Ở khâu rút gọn context, công ty tập trung vào việc mở phiên mới khi chuyển tác vụ, thu hẹp phạm vi ngữ cảnh của tệp và ngắt kết nối những công cụ không còn sử dụng.

Armstrong nhấn mạnh: “Mục tiêu không phải là số lượng token, mà là giảm lượng token bị lãng phí”. Theo ông, điều quan trọng không phải kìm hãm mức sử dụng, mà là xây dựng hạ tầng đủ tốt để đáp ứng tăng trưởng theo cấp số nhân một cách bền vững.

Nicholas Bustamante của Microsoft cũng bày tỏ đồng tình với quan điểm của Armstrong và cho rằng “agent chạy nền” sẽ là từ khóa tiếp theo trong bài toán tối ưu chi phí AI.

Theo Bustamante, đây mới là điểm khởi đầu của “kỷ nguyên tối ưu token”. Nếu giai đoạn đầu là khuyến khích doanh nghiệp sử dụng AI nhiều hơn, thì bước tiếp theo sẽ là dùng đúng mô hình, đúng thời điểm, đúng cache và với lượng token phù hợp.

Ông cho rằng các agent chạy nền đặc biệt phù hợp với những công việc không cần xử lý ngay lập tức, như review code, đánh giá, refactor, trích xuất dữ liệu, cập nhật tài liệu, quét bảo mật, dọn hộp thư, bổ sung CRM, tạo test hay lập kế hoạch migration. Những tác vụ này có thể được xử lý sau 30 phút, 2 giờ hoặc thậm chí một ngày.

Bustamante cũng dự báo cơ chế định giá token cố định sẽ thay đổi khi công suất GPU biến động giữa giờ cao điểm và thời gian nhàn rỗi. Do nhu cầu tương tác thường tập trung vào giờ làm việc, các tác vụ chạy nền có thể được thực thi với chi phí thấp hơn vào lúc hệ thống dư công suất.

Theo đó, thị trường có thể chuyển từ giá token cố định sang mô hình định giá token theo độ trễ chấp nhận được: xử lý ngay sẽ có giá thời gian thực, chờ một giờ sẽ rẻ hơn, còn chờ 24 giờ thì chi phí có thể giảm đáng kể.

Ông nhận định AI stack trong tương lai sẽ phải tối ưu đồng thời chất lượng mô hình, trạng thái cache, mức độ chấp nhận độ trễ, công suất GPU và giá trị kinh doanh. Khi đó, agent sẽ không chỉ quyết định dùng mô hình nào, mà còn quyết định thời điểm thực thi công việc.

Từ khóa

#Coinbase #AI #LLM #tối ưu token #cache #routing #Microsoft #Brian Armstrong #Nicholas Bustamante
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.