Hệ thống AI của Cerebras đạt tốc độ suy luận 981 token/giây. Ảnh: Cerebras

Cerebras đã đưa mô hình open-weight Kimi K2.6 với 1.000 tỷ tham số vào dịch vụ suy luận dành cho khách hàng doanh nghiệp, ghi nhận tốc độ 981 token/giây. Theo công ty, kết quả này cho thấy bước nhảy đáng kể về tốc độ xử lý, hiệu năng và quy mô mô hình trong mảng agentic coding.

Theo Cerebras và trang tin Cryptopolitan ngày 19/5 (giờ địa phương), dịch vụ mới đang được cung cấp ở giai đoạn dùng thử cho khối doanh nghiệp.

Động thái trên diễn ra trong bối cảnh Cerebras đẩy nhanh kế hoạch IPO và liên tiếp mở rộng hiện diện trên thị trường. Hồ sơ xin niêm yết cho thấy doanh thu năm 2025 của công ty đạt 510 triệu USD, tăng 76% so với một năm trước. Lợi nhuận ròng đạt 238 triệu USD, đánh dấu việc doanh nghiệp chuyển sang có lãi.

Tháng 1, Cerebras ký hợp đồng tính toán dài hạn trị giá 20 tỷ USD với OpenAI, có hiệu lực đến năm 2028. Đến tháng 3, công ty tiếp tục đạt thỏa thuận với Amazon Web Services (AWS) để triển khai các hệ thống Cerebras tại trung tâm dữ liệu của AWS.

Điểm giúp Cerebras thu hút sự chú ý của các khách hàng lớn là tốc độ suy luận vượt trội. Tổ chức đánh giá hiệu năng AI Artificial Analysis cho biết Kimi K2.6 chạy trên hạ tầng Cerebras đạt 981 token/giây, cao gấp 6,7 lần so với dịch vụ đám mây dùng GPU đứng thứ hai và nhanh gấp 23 lần mức trung vị của các dịch vụ suy luận hiện có.

Không chỉ dẫn đầu về tốc độ tạo token, Cerebras còn bỏ xa đối thủ ở thời gian hoàn tất phản hồi. Với đầu vào 10.000 token, hệ thống này mất 5,6 giây để hoàn tất 500 token đầu ra, trong khi endpoint chính thức của Kimi cần tới 163,7 giây. Tính theo thời gian trả lời đầy đủ, chênh lệch lên tới 29 lần.

Nền tảng cho kết quả trên đến từ chính năng lực của Kimi K2.6. Mô hình này được đánh giá là một trong những mô hình open-weight mạnh nhất cho các tác vụ lập trình và agentic AI, đạt 58,6 điểm trên SWE-bench Pro, vượt Claude Opus 4.6 và cho hiệu năng tương đương GPT-5.4. Theo Cerebras, khả năng của K2.6 không chỉ dừng ở tạo mã mà còn có thể bao phủ toàn bộ quy trình full-stack, từ thiết kế front-end, xác thực, xử lý cơ sở dữ liệu đến vận hành tác tử dài hạn.

Về hạ tầng, Cerebras sử dụng cụm CS-3 dựa trên Wafer Scale Engine (WSE). Hệ thống này lưu trữ trọng số gốc 4-bit của K2.6 nhưng thực hiện tính toán ở độ chính xác dấu phẩy động 16-bit, đồng thời phân tán trọng số trên nhiều wafer. Kết nối giữa các wafer được xử lý bằng fabric on-wafer với băng thông gấp 200 lần NVLink NVL72, kết hợp cùng kernel tùy biến và speculative decoding để đẩy tốc độ lên mức tối đa.

Theo Cerebras, tốc độ suy luận không chỉ là chỉ số kỹ thuật mà còn ảnh hưởng trực tiếp đến cách phát triển ứng dụng AI. Agentic coding hiện được xem là một trong những trường hợp sử dụng có giá trị cao nhất của mô hình ngôn ngữ lớn, đồng thời cũng là khối lượng công việc nhạy cảm nhất với độ trễ. Khi tốc độ tiến sát 1.000 token/giây, nhà phát triển có thể làm việc gần như theo thời gian thực, thay vì liên tục chờ phản hồi rồi mới rà soát kết quả. Cách vận hành nhiều tác tử song song cũng nhờ đó giảm lãng phí hơn.

Hiện Cerebras đang vận hành dịch vụ Kimi K2.6 theo hình thức dùng thử cho khách hàng doanh nghiệp. Trong bối cảnh tốc độ suy luận ngày càng trở thành năng lực cạnh tranh cốt lõi của agentic AI, thị trường hạ tầng suy luận vốn do GPU chi phối có thể đứng trước một thay đổi lớn.

Từ khóa

#Cerebras #Kimi K2.6 #suy luận AI #GPU #WSE #CS-3 #agentic AI #OpenAI #AWS
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.