Cactus Compute推出轻量级工具调用模型Needle,参数量为2600万,可在智能手机等终端设备上本地运行。据日本科技媒体Gigazine 5月14日报道,Needle的工具调用能力由Google AI模型Gemini-3.1-Flash-Lite蒸馏而来。
从定位而言,Needle主要面向普通消费级设备的端侧运行。其预填充速度可达每秒6000个token,解码速度为每秒1200个token。
在训练方面,Needle的预训练阶段使用了16台TPU v6e,耗时27小时;后训练阶段则基于Gemini生成的工具调用数据集,仅用45分钟完成。
开发者Henry Ndubuaku表示,目前针对入门级智能手机也能运行的AI代理,相关开发尝试几乎没有。他指出,AI代理通常围绕工具调用构建,而在这一场景中,大模型可能存在性能过剩的问题。基于这一判断,Needle被设计为专门面向工具调用的轻量模型,并采用可在智能手机等终端设备上运行的轻量化架构。
目前,Cactus Compute已在GitHub和Hugging Face上线Needle,采用MIT许可证发布。与此同时,该公司还在开发一款面向手机端的AI应用Cactus Chat。
不过,公开信息显示,Needle蒸馏自Gemini-3.1-Flash-Lite。Gigazine称,Google对Gemini模型明确限制抽取、蒸馏等用法,这也使Needle的发布引发外界对合规性的关注。
记者信息