Physical Intelligence đã công bố mô hình robot mới mang tên π0.7, với mục tiêu tiến gần hơn tới robot đa dụng có thể xử lý cả những tác vụ chưa xuất hiện trong dữ liệu huấn luyện.
Theo TechCrunch ngày 16/4/2026, π0.7 bước đầu cho thấy khả năng “khái quát hóa mang tính cấu phần” (Compositional Generalization) — tức ghép nối các động tác và tri thức đã học để ứng phó với môi trường hoặc tác vụ chưa từng gặp trước đó.
Khác với cách huấn luyện robot truyền thống vốn tập trung vào lượng lớn dữ liệu cho từng tác vụ riêng lẻ và lặp lại đúng tác vụ đó, π0.7 được phát triển theo hướng không chỉ “ghi nhớ” một công việc cụ thể. Mô hình này kết hợp dữ liệu tiền huấn luyện trên web với dữ liệu hành vi vật lý, qua đó mở rộng sang các tác vụ mới. Physical Intelligence xem đây là bước đi ban đầu để xây dựng “bộ não” cho robot đa dụng.
Một ví dụ được nhóm nghiên cứu đưa ra là thử nghiệm với nồi chiên không dầu. Dù dữ liệu liên quan trực tiếp đến thiết bị này thực tế chỉ có khoảng hai trường hợp, π0.7 vẫn có thể thực hiện tác vụ nướng khoai lang mà không cần huấn luyện bổ sung, miễn là con người cung cấp hướng dẫn bằng ngôn ngữ theo từng bước.
Đồng sáng lập Sergey Levine cho rằng khi robot vượt qua giai đoạn chỉ làm đúng những gì đã được huấn luyện để chuyển sang khả năng phối hợp kiến thức theo cách mới, mức cải thiện hiệu suất có thể tăng mạnh. Theo ông, đặc điểm này phần nào tương đồng với xu hướng mở rộng năng lực từng xuất hiện ở các mô hình ngôn ngữ và thị giác.
Điểm cốt lõi của π0.7 là robot có thể cải thiện hiệu suất ngay trong môi trường vận hành mới mà không cần thu thập thêm dữ liệu hoặc huấn luyện lại. Dù vậy, mô hình này vẫn chưa đạt mức tự chủ hoàn toàn. Hệ thống hiện gặp khó với các tác vụ nhiều bước, phức tạp nếu chỉ nhận một lệnh cấp cao, và hoạt động ổn định hơn khi có chỉ dẫn chi tiết theo từng bước.
Nhóm nghiên cứu cũng thừa nhận những hạn chế về mặt kỹ thuật. Lĩnh vực robot hiện chưa có benchmark thống nhất, tức bộ chuẩn đánh giá chung, nên việc kiểm chứng độc lập từ bên ngoài vẫn không dễ. Vì vậy, Physical Intelligence chủ yếu so sánh π0.7 với các mô hình chuyên dụng trước đây của chính công ty và cho biết mô hình mới đạt hiệu suất tương đương trong các tác vụ tổng hợp như pha cà phê, gấp quần áo và lắp ráp hộp.
Một điểm đáng chú ý là kết quả không chỉ phụ thuộc vào năng lực của mô hình mà còn chịu ảnh hưởng lớn từ cách con người đưa ra chỉ dẫn. Nhà nghiên cứu Ashwin Balakrishna cho biết trong thử nghiệm với nồi chiên không dầu, tỷ lệ thành công ban đầu chỉ ở mức khoảng 5%. Tuy nhiên, sau khoảng 30 phút điều chỉnh cách mô tả tác vụ, tỷ lệ này đã tăng lên 95%. Theo ông, nhiều trường hợp thất bại xuất phát từ cách hướng dẫn của con người, cho thấy vai trò quan trọng của thiết kế prompt.
Nhóm nghiên cứu cũng ghi nhận một số kết quả ngoài dự đoán. Balakrishna cho biết khi đưa cho robot một bộ bánh răng bất kỳ và yêu cầu quay nó, π0.7 vẫn thực hiện được dù không qua huấn luyện riêng cho tình huống này. Levine liên hệ hiện tượng đó với giai đoạn đầu của các mô hình ngôn ngữ lớn, khi hệ thống bất ngờ tạo ra những kết quả vượt ngoài dự đoán, và cho rằng robot cũng có thể đang bắt đầu xuất hiện năng lực “trỗi dậy” tương tự.
Dù vậy, Physical Intelligence cho rằng việc thương mại hóa vẫn cần thêm thời gian. Trong bài báo khoa học công bố cùng mô hình, nhóm phát triển mô tả π0.7 là tín hiệu ban đầu cho khả năng khái quát hóa và là minh chứng sớm cho một năng lực mới, đồng thời nhấn mạnh công nghệ này hiện vẫn ở giai đoạn nghiên cứu.
Trong khi đó, kỳ vọng của thị trường đối với công ty đang gia tăng. Physical Intelligence đã huy động được hơn 1 tỷ USD và gần đây được định giá 5,6 tỷ USD. Trong ngành cũng xuất hiện nhận định rằng công ty có thể tiếp tục gọi vốn để nâng mức định giá lên khoảng 11 tỷ USD.