AI芯片设计公司Cerebras宣布,将拥有1万亿参数的开源权重模型Kimi K2.6引入企业级推理服务,实测最高推理速度达到981 token/s。
当地时间19日,Cerebras及媒体Cryptopolitan披露,上述服务在速度、性能和模型规模等方面刷新了行业纪录,或将对Agentic Coding赛道的竞争格局带来影响。
目前,Cerebras正推进首次公开募股(IPO),并加快扩大市场影响力。根据其上市申报文件,公司2025年营收为5.1亿美元,同比增长76%;净利润为2.38亿美元,实现扭亏为盈。
在业务合作方面,Cerebras今年1月与OpenAI签署长期算力协议,合同总规模为200亿美元,期限至2028年;3月又与Amazon Web Services(AWS)达成合作,在其数据中心部署Cerebras系统。
推理速度被视为Cerebras获得客户青睐的核心优势之一。AI性能评测机构Artificial Analysis的测试显示,Kimi K2.6在Cerebras平台上的推理速度达到981 token/s,较基于GPU云端推理的第二名快6.7倍,较推理服务中位数快23倍。
若从用户实际感知的“完整响应时间”来看,差距更为明显。在1万token输入、500 token输出的测试条件下,Cerebras仅需5.6秒即可完成响应,而Kimi官方API端点耗时为163.7秒;按完整响应时间计算,前者快29倍。
除硬件能力外,Kimi K2.6本身的模型表现也是重要因素。该模型被认为是编码和Agentic任务领域表现最强的开源权重模型之一,在SWE-bench Pro上的得分为58.6,超过Claude Opus 4.6,并展现出可与GPT-5.4比肩的性能。其应用范围也不局限于代码生成,还可覆盖从前端设计、认证到数据库处理、长周期Agent运行等全流程任务。
支撑上述性能的是Cerebras自研硬件架构。公司基于晶圆级引擎(WSE)和CS-3集群实现这一成绩,在保留Kimi K2.6原始4-bit权重存储的同时,于计算环节采用16-bit浮点处理,并将权重分布在多片晶圆之上。晶圆间通信则通过片上网络Fabric完成。Cerebras表示,该方案带宽较NVLink NVL72高出200倍以上,同时结合自定义Kernel与推测解码,进一步提升了推理吞吐。
在业内看来,推理速度的意义并不只是数字提升,也可能改变开发者的工作方式。Agentic Coding被视为当前大模型最具价值的落地场景之一,同时也是对推理速度最为敏感的工作负载之一。当速度接近每秒1000 token时,开发者有望摆脱“等待—审查—重复”的循环,获得更接近实时的开发体验,多Agent并行与切换带来的效率损耗也可能随之下降。
目前,Cerebras的Kimi K2.6服务仍处于面向企业客户的试用阶段。随着推理速度成为Agentic AI的重要竞争力,GPU主导的既有推理市场格局是否会受到冲击,仍有待进一步观察。