Google推出机器人模型Gemini Robotics ER 1.6，强化视觉与物理推理

Gemini Robotics ER 1.6重点提升机器人视觉感知与动作决策之间的联动能力。图片来源：Google

Google推出面向机器人的AI模型Gemini Robotics ER 1.6，进一步强化视觉理解、空间感知和物理推理能力。

据日本科技媒体Gigazine当地时间15日报道，这款新模型面向机器人对周边环境的理解与任务执行而设计，并支持调用Google搜索获取所需信息。

与上一代相比，Gemini Robotics ER 1.6在空间和物理推理方面进一步升级，目标并不只是让机器人执行指令，而是提升其自主理解和判断现实环境的能力。与此同时，模型的物体检测精度也有所提高，可处理更复杂的复合指令，例如统计物体数量、从可见目标中找出数量最少的一类，或识别所有能够放入指定杯中的小型物体。

在空间状态判断方面，新模型还能推断门是否开启等环境状态。在执行任务时，机器人可调用Google搜索获取外部信息，并结合视觉—语言—动作模型与外部定义函数，将外部信息与自身感知结果整合后再作出动作决策。

此次升级的一项亮点，是新增对模拟仪表的读数能力。Gemini Robotics ER 1.6可根据视觉信息读取压力表等模拟仪表。Google表示，模型引入了“Agentic Vision”，可借助图像放大来估算比例和间距。与Gemini Robotics ER 1.5相比，其仪表解读能力明显提升。这一功能来自Google合作伙伴Boston Dynamics提出的需求。

新模型对安全规则的遵循能力也有所增强。Google进一步强化了机器人对物理安全限制的执行，例如不处理液体、不搬运超过20公斤的物体等，同时也提升了对周边风险因素的识别能力。按照Google的思路，机器人在执行任务时，除了追求完成任务本身，也需要同时考虑动作限制和安全边界。

此外，Gemini Robotics ER 1.6的多视角理解能力也同步提升。该模型能够更准确地理解多路摄像头画面之间的对应关系，预计将扩大其在复杂空间内判断位置和目标关系的应用范围。

Google表示，若要进一步拓展机器人的应用边界，具备对物理世界的推理能力至关重要。公司认为，要让机器人真正适用于日常生活和工业现场，仅靠“遵循指令”远远不够，还必须能够理解现实世界的物理规则。从在复杂设施内移动，到读取压力表指针，建立在机器人感知基础上的推理能力，将有助于缩小数字世界与物理世界之间的差距。

Jinju Hong hongjj@d-today.co.kr

关键词