Cactus Compute推出轻量工具调用模型Needle，可在入门级智能手机端侧运行

生成中...

Choo Hyun-woo

发布时间 2026-05-14 13:11:57

搜索关键词

Cactus Compute推出轻量级工具调用模型Needle，参数量为2600万，可在智能手机等终端设备上本地运行。据日本科技媒体Gigazine 5月14日报道，Needle的工具调用能力由Google AI模型Gemini-3.1-Flash-Lite蒸馏而来。

从定位而言，Needle主要面向普通消费级设备的端侧运行。其预填充速度可达每秒6000个token，解码速度为每秒1200个token。

在训练方面，Needle的预训练阶段使用了16台TPU v6e，耗时27小时；后训练阶段则基于Gemini生成的工具调用数据集，仅用45分钟完成。

开发者Henry Ndubuaku表示，目前针对入门级智能手机也能运行的AI代理，相关开发尝试几乎没有。他指出，AI代理通常围绕工具调用构建，而在这一场景中，大模型可能存在性能过剩的问题。基于这一判断，Needle被设计为专门面向工具调用的轻量模型，并采用可在智能手机等终端设备上运行的轻量化架构。

目前，Cactus Compute已在GitHub和Hugging Face上线Needle，采用MIT许可证发布。与此同时，该公司还在开发一款面向手机端的AI应用Cactus Chat。

不过，公开信息显示，Needle蒸馏自Gemini-3.1-Flash-Lite。Gigazine称，Google对Gemini模型明确限制抽取、蒸馏等用法，这也使Needle的发布引发外界对合规性的关注。

Choo Hyun-woo cookinpapa@d-today.co.kr