Google ngày 15/4 (giờ địa phương) công bố Gemini Robotics ER 1.6, mô hình AI dành cho robot với các cải tiến về thị giác máy tính, nhận thức không gian và suy luận vật lý.
Theo Gizmodo, phiên bản mới được phát triển để giúp robot hiểu bối cảnh xung quanh tốt hơn, đồng thời có thể kết nối với Google Search để tra cứu thông tin cần thiết trong lúc thực hiện tác vụ.
Trọng tâm của bản nâng cấp là đưa robot vượt khỏi mức chỉ làm theo mệnh lệnh, tiến tới khả năng tự hiểu và suy luận về môi trường vật lý. So với thế hệ trước, Gemini Robotics ER 1.6 cải thiện đáng kể năng lực suy luận không gian và vật lý, đồng thời nâng độ chính xác trong nhận diện vật thể.
Nhờ đó, mô hình có thể xử lý các yêu cầu phức tạp hơn, chẳng hạn đếm số lượng vật thể, xác định nhóm vật thể có số lượng ít nhất trong khung hình, hoặc tìm toàn bộ vật thể đủ nhỏ để đặt vào một chiếc cốc cụ thể.
Gemini Robotics ER 1.6 cũng được bổ sung khả năng nhận biết trạng thái không gian, ví dụ xác định cửa đang mở hay đóng. Trong quá trình thực hiện tác vụ, robot có thể truy cập Google Search như một công cụ mặc định để tìm thông tin cần thiết. Ngoài ra, hệ thống còn hỗ trợ kết hợp mô hình thị giác - ngôn ngữ - hành động với các hàm do bên ngoài định nghĩa, qua đó giúp robot phối hợp dữ liệu bên ngoài với nhận thức nội tại để đưa ra hành động phù hợp.
Một điểm mới đáng chú ý là khả năng đọc thiết bị analog. Theo Google, Gemini Robotics ER 1.6 có thể sử dụng dữ liệu thị giác để đọc các thiết bị như đồng hồ đo áp suất. Công ty cho biết đã áp dụng “agentic vision”, cho phép hệ thống phóng to hình ảnh, ước tính tỷ lệ và khoảng cách, từ đó cải thiện rõ rệt khả năng diễn giải so với Gemini Robotics ER 1.5. Tính năng này được phát triển từ nhu cầu của đối tác Boston Dynamics.
Khả năng tuân thủ các ràng buộc an toàn cũng được tăng cường. Google cho biết mô hình mới được thiết kế để tuân thủ chặt chẽ hơn các giới hạn an toàn trong môi trường vật lý, chẳng hạn không xử lý chất lỏng hoặc không nâng vật nặng trên 20 kg. Năng lực nhận diện các yếu tố rủi ro xung quanh cũng được cải thiện, giúp robot khi hành động không chỉ hướng tới việc hoàn thành tác vụ mà còn cân nhắc các giới hạn hành vi.
Bên cạnh đó, tính năng suy luận từ nhiều góc nhìn camera cũng được nâng cấp. Gemini Robotics ER 1.6 được cải tiến để hiểu chính xác hơn mối quan hệ giữa các hình ảnh do nhiều camera ghi lại, mở rộng khả năng xử lý các tác vụ đòi hỏi xác định vị trí và mối liên hệ giữa các vật thể trong không gian phức tạp.
Google nhấn mạnh rằng suy luận về thế giới vật lý là điều kiện bắt buộc nếu muốn mở rộng phạm vi ứng dụng của robot. Theo hãng, để robot thực sự hữu ích trong đời sống và môi trường công nghiệp, chỉ làm theo chỉ thị là chưa đủ, mà còn phải có khả năng hiểu thế giới vật lý. Từ việc di chuyển trong các cơ sở phức tạp đến đọc kim trên đồng hồ đo áp suất, năng lực suy luận gắn với cảm biến sẽ giúp robot thu hẹp khoảng cách giữa thế giới số và thế giới thực.