Cactus Compute、軽量AIモデル「Needle」公開　スマホ向けエージェント市場を照準

生成中...

Choo Hyun-woo

公開 2026-05-14 13:11:57

この記事を共有

Cactus Computeは、スマートフォンなどの小型端末でオンデバイス動作する2600万パラメータの軽量AIモデル「Needle」を公開した。ツール呼び出しに特化したモデルで、同社はGoogleの「Gemini-3.1-Flash-Lite」のツール呼び出し機能を蒸留して開発したとしている。

14日付のGizmodo Japanによると、Needleは低価格帯のスマートフォンを含む一般的な端末での動作を念頭に設計された。処理性能はプリフィルが毎秒6000トークン、デコードが毎秒1200トークンとしている。

事前学習にはTPU v6eを16台使用し、学習時間は27時間だった。追加学習はGeminiが生成したツール呼び出し用データセットを用い、45分で完了したという。

開発者のヘンリー・ンドゥブアク氏は、低価格スマートフォンでも動くAIエージェントの開発は、これまでほとんど試みられてこなかったと説明した。AIエージェントはツール呼び出しを中核に構成されるため、大規模モデルは過剰になりやすいと判断したという。そのためNeedleは、ツール呼び出しに特化した軽量モデルとして設計し、スマートフォンなどのエッジ端末での実行を可能にしたとしている。

NeedleはGitHubとHugging Faceで公開しており、ライセンスはMITライセンス。Cactus Computeは、スマートフォン向けAI実行アプリ「Cactus Chat」も開発中だ。

一方で、NeedleはGemini-3.1-Flash-Liteを蒸留して開発したと公表している。GoogleはGeminiの出力の収集や蒸留を利用規約で禁じている。

Choo Hyun-woo cookinpapa@d-today.co.kr

Cactus Compute、軽量AIモデル「Needle」公開　スマホ向けエージェント市場を照準

2600万パラメータでオンデバイス動作、Geminiのツール呼び出しを蒸留

生成中...

AI要約

Cactus Computeは、スマートフォンなどの小型端末で動作する2600万パラメータの軽量AIモデル「Needle」を公開した。Googleの「Gemini-3.1-Flash-Lite」のツール呼び出し機能を蒸留して開発したとしている。

キーワード