Cerebrasは、1兆パラメータのオープンウエイトモデル「Kimi K2.6」を企業向け推論サービスとして提供開始し、毎秒981トークンを記録した。1万トークンの入力に対する応答完了時間は5.6秒で、公式のKimiエンドポイントを大幅に上回るという。
CerebrasおよびCryptopolitanの19日付報道によると、同サービスは速度、性能、モデル規模の各面で優位性を示しており、エージェント型コーディング分野の競争環境に影響を与える可能性がある。
同社は新規株式公開(IPO)を進めるなか、事業面でも拡大が続いている。上場申請書類によれば、2025年の売上高は5億1000万ドルで、前年比76%増だった。純利益は2億3800万ドルとなり、黒字転換を果たした。
また、1月にはOpenAIと2028年までの総額200億ドル規模の長期コンピューティング契約を締結。3月にはAmazon Web Services(AWS)と、自社データセンターへのCerebrasシステム導入に関する契約を結んだ。
こうした契約拡大の背景には、推論速度の優位性がある。AI性能評価機関のArtificial Analysisは、Kimi K2.6の推論速度を毎秒981トークンと測定した。これは、GPUベースのクラウドサービスの2位と比べて6.7倍、推論サービス全体の中央値と比べて23倍高速だとしている。
応答完了までの時間差はさらに大きい。1万トークンの入力に対し、500トークンを出力し終えるまでの時間は、Cerebrasが5.6秒だったのに対し、公式のKimiエンドポイントは163.7秒を要した。最終回答に到達する時間でみると、29倍の差になるという。
同社は、この高速性を支える要因として、Kimi K2.6自体の性能の高さも挙げる。Kimi K2.6は、コーディングやエージェント型タスクの分野で有力なオープンウエイトモデルの一つとされる。
SWE-bench Proでは58.6点を記録し、Claude Opus 4.6を上回り、GPT-5.4に匹敵する性能を示したとしている。用途はコード生成にとどまらず、フロントエンド設計、認証、データベース処理、長時間のエージェント実行まで、フルスタックのワークフロー全体をカバーできるという。
こうした性能を支えているのが、Cerebras独自のハードウエアアーキテクチャだ。同社は、ウエハースケールエンジン(WSE)ベースのCS-3クラスタで、今回の性能を実現したとしている。
Kimi K2.6の4ビット重みを保持しつつ、演算は16ビット浮動小数点で処理し、重みは複数のウエハーに分散配置する。ウエハー間通信には、NVLink NVL72と比べて200倍超の帯域幅を持つオンウエハーネットワークファブリックを用い、カスタムカーネルと投機的デコーディングを組み合わせて高速化を図った。
同社は、高速化は単なる数値上の優位にとどまらず、開発手法そのものを変える可能性があるとみている。エージェント型コーディングは現在、大規模言語モデル(LLM)の価値を引き出しやすい代表的な活用領域であり、推論速度の影響を受けやすいワークロードでもあるためだ。
毎秒1000トークンに迫る処理速度が実現すれば、開発者は待機とレビューを繰り返すのではなく、よりリアルタイムに近い形で開発を進められる。複数エージェントの並列実行や切り替えに伴う非効率の削減にもつながるとしている。
Cerebrasは現在、Kimi K2.6の企業向け試験提供を進めている。推論速度がエージェント型AIの中核競争力として浮上するなか、GPU中心だった既存の推論市場の構図が変わるかどうか注目される。