Cactus Compute vừa giới thiệu Needle, mô hình AI 26 triệu tham số có thể chạy trực tiếp trên các thiết bị nhỏ như smartphone và được tối ưu cho tác vụ gọi công cụ. Theo Gigazine ngày 14/5/2026, Needle được phát triển bằng cách chưng cất năng lực gọi công cụ từ mô hình Gemini-3.1-Flash-Lite của Google.
Needle được định vị cho nhu cầu xử lý ngay trên thiết bị, đặc biệt là các mẫu smartphone phổ thông. Mô hình này đạt tốc độ prefill 6.000 token mỗi giây và tốc độ decode 1.200 token mỗi giây.
Về quá trình huấn luyện, giai đoạn tiền huấn luyện kéo dài 27 giờ với 16 TPU v6e. Khâu hậu huấn luyện diễn ra trong 45 phút, sử dụng bộ dữ liệu gọi công cụ do Gemini tạo ra.
Nhà phát triển Henry Nduubuaku cho biết hiện vẫn hiếm nỗ lực xây dựng AI agent có thể hoạt động trên smartphone giá rẻ. Theo ông, do AI agent chủ yếu dựa vào khả năng gọi công cụ, việc dùng các mô hình lớn là không cần thiết.
Từ định hướng đó, Needle được thiết kế như một mô hình gọn nhẹ, chuyên cho tác vụ gọi công cụ, nhằm vận hành trên các thiết bị nhỏ như smartphone.
Cactus Compute hiện phát hành Needle trên GitHub và Hugging Face theo giấy phép MIT. Công ty đồng thời phát triển Cactus Chat, một ứng dụng đưa AI lên smartphone.
Dù vậy, việc Needle được công bố là phát triển từ quá trình chưng cất Gemini-3.1-Flash-Lite cũng làm dấy lên tranh cãi. Điều khoản của Google không cho phép trích xuất hoặc chưng cất từ Gemini.