Cerebras上线Kimi K2.6企业级推理服务：速度达981 token/s

AI芯片设计公司Cerebras宣布，将拥有1万亿参数的开源权重模型Kimi K2.6引入企业级推理服务，实测最高推理速度达到981 token/s。

当地时间19日，Cerebras及媒体Cryptopolitan披露，上述服务在速度、性能和模型规模等方面刷新了行业纪录，或将对Agentic Coding赛道的竞争格局带来影响。

目前，Cerebras正推进首次公开募股（IPO），并加快扩大市场影响力。根据其上市申报文件，公司2025年营收为5.1亿美元，同比增长76%；净利润为2.38亿美元，实现扭亏为盈。

在业务合作方面，Cerebras今年1月与OpenAI签署长期算力协议，合同总规模为200亿美元，期限至2028年；3月又与Amazon Web Services（AWS）达成合作，在其数据中心部署Cerebras系统。

推理速度被视为Cerebras获得客户青睐的核心优势之一。AI性能评测机构Artificial Analysis的测试显示，Kimi K2.6在Cerebras平台上的推理速度达到981 token/s，较基于GPU云端推理的第二名快6.7倍，较推理服务中位数快23倍。

若从用户实际感知的“完整响应时间”来看，差距更为明显。在1万token输入、500 token输出的测试条件下，Cerebras仅需5.6秒即可完成响应，而Kimi官方API端点耗时为163.7秒；按完整响应时间计算，前者快29倍。

除硬件能力外，Kimi K2.6本身的模型表现也是重要因素。该模型被认为是编码和Agentic任务领域表现最强的开源权重模型之一，在SWE-bench Pro上的得分为58.6，超过Claude Opus 4.6，并展现出可与GPT-5.4比肩的性能。其应用范围也不局限于代码生成，还可覆盖从前端设计、认证到数据库处理、长周期Agent运行等全流程任务。

支撑上述性能的是Cerebras自研硬件架构。公司基于晶圆级引擎（WSE）和CS-3集群实现这一成绩，在保留Kimi K2.6原始4-bit权重存储的同时，于计算环节采用16-bit浮点处理，并将权重分布在多片晶圆之上。晶圆间通信则通过片上网络Fabric完成。Cerebras表示，该方案带宽较NVLink NVL72高出200倍以上，同时结合自定义Kernel与推测解码，进一步提升了推理吞吐。

在业内看来，推理速度的意义并不只是数字提升，也可能改变开发者的工作方式。Agentic Coding被视为当前大模型最具价值的落地场景之一，同时也是对推理速度最为敏感的工作负载之一。当速度接近每秒1000 token时，开发者有望摆脱“等待—审查—重复”的循环，获得更接近实时的开发体验，多Agent并行与切换带来的效率损耗也可能随之下降。

目前，Cerebras的Kimi K2.6服务仍处于面向企业客户的试用阶段。随着推理速度成为Agentic AI的重要竞争力，GPU主导的既有推理市场格局是否会受到冲击，仍有待进一步观察。

Kyung-min Hong hongm@d-today.co.kr

关键词