Cactus Computeは、スマートフォンなどの小型端末でオンデバイス動作する2600万パラメータの軽量AIモデル「Needle」を公開した。ツール呼び出しに特化したモデルで、同社はGoogleの「Gemini-3.1-Flash-Lite」のツール呼び出し機能を蒸留して開発したとしている。
14日付のGizmodo Japanによると、Needleは低価格帯のスマートフォンを含む一般的な端末での動作を念頭に設計された。処理性能はプリフィルが毎秒6000トークン、デコードが毎秒1200トークンとしている。
事前学習にはTPU v6eを16台使用し、学習時間は27時間だった。追加学習はGeminiが生成したツール呼び出し用データセットを用い、45分で完了したという。
開発者のヘンリー・ンドゥブアク氏は、低価格スマートフォンでも動くAIエージェントの開発は、これまでほとんど試みられてこなかったと説明した。AIエージェントはツール呼び出しを中核に構成されるため、大規模モデルは過剰になりやすいと判断したという。そのためNeedleは、ツール呼び出しに特化した軽量モデルとして設計し、スマートフォンなどのエッジ端末での実行を可能にしたとしている。
NeedleはGitHubとHugging Faceで公開しており、ライセンスはMITライセンス。Cactus Computeは、スマートフォン向けAI実行アプリ「Cactus Chat」も開発中だ。
一方で、NeedleはGemini-3.1-Flash-Liteを蒸留して開発したと公表している。GoogleはGeminiの出力の収集や蒸留を利用規約で禁じている。