Gemini Robotics ER 1.6重点提升机器人视觉感知与动作决策之间的联动能力。图片来源:Google

Google推出面向机器人的AI模型Gemini Robotics ER 1.6,进一步强化视觉理解、空间感知和物理推理能力。

据日本科技媒体Gigazine当地时间15日 报道,这款新模型面向机器人对周边环境的理解与任务执行而设计,并支持调用Google搜索获取所需信息。

与上一代相比,Gemini Robotics ER 1.6在空间和物理推理方面进一步升级,目标并不只是让机器人执行指令,而是提升其自主理解和判断现实环境的能力。与此同时,模型的物体检测精度也有所提高,可处理更复杂的复合指令,例如统计物体数量、从可见目标中找出数量最少的一类,或识别所有能够放入指定杯中的小型物体。

在空间状态判断方面,新模型还能推断门是否开启等环境状态。在执行任务时,机器人可调用Google搜索获取外部信息,并结合视觉—语言—动作模型与外部定义函数,将外部信息与自身感知结果整合后再作出动作决策。

此次升级的一项亮点,是新增对模拟仪表的读数能力。Gemini Robotics ER 1.6可根据视觉信息读取压力表等模拟仪表。Google表示,模型引入了“Agentic Vision”,可借助图像放大来估算比例和间距。与Gemini Robotics ER 1.5相比,其仪表解读能力明显提升。这一功能来自Google合作伙伴Boston Dynamics提出的需求。

新模型对安全规则的遵循能力也有所增强。Google进一步强化了机器人对物理安全限制的执行,例如不处理液体、不搬运超过20公斤的物体等,同时也提升了对周边风险因素的识别能力。按照Google的思路,机器人在执行任务时,除了追求完成任务本身,也需要同时考虑动作限制和安全边界。

此外,Gemini Robotics ER 1.6的多视角理解能力也同步提升。该模型能够更准确地理解多路摄像头画面之间的对应关系,预计将扩大其在复杂空间内判断位置和目标关系的应用范围。

Google表示,若要进一步拓展机器人的应用边界,具备对物理世界的推理能力至关重要。公司认为,要让机器人真正适用于日常生活和工业现场,仅靠“遵循指令”远远不够,还必须能够理解现实世界的物理规则。从在复杂设施内移动,到读取压力表指针,建立在机器人感知基础上的推理能力,将有助于缩小数字世界与物理世界之间的差距。

关键词

#Google #Gemini Robotics ER 1.6 #机器人模型 #物理推理 #空间感知 #多视角理解 #模拟仪表读数 #Agentic Vision #Google搜索 #Boston Dynamics
版权所有 © DigitalToday。未经授权禁止转载或传播。