Microsoft推出基于Phi系列视觉语言模型的物理AI机器人模型Rho-alpha。该公司表示,Rho-alpha旨在提升物理系统在真实环境中的适应性与灵活性。
Microsoft介绍,过去几十年,机器人主要应用于装配线等结构化环境,这类任务通常流程固定、可预测性较强。随着面向物理系统的视觉-语言-动作模型(Vision-Language-Action,VLA)兴起,机器人有望进一步进入更复杂、更开放的非结构化环境,与人类协作完成感知、推理和动作执行。
据介绍,Rho-alpha可将自然语言指令转化为控制信号,驱动机器人完成双臂协同操作。Microsoft表示,该模型的特点在于将感知和学习能力扩展到传统VLA模型较少覆盖的模态。
Microsoft Research Accelerator副总裁Ashley Llorens表示,在感知层面,团队已引入触觉传感,并正持续推进技术升级,以扩展包括力在内的更多传感模态;在学习层面,Rho-alpha被设计为即使部署到真实场景中,也能持续吸收人类反馈,并通过迭代不断提升性能。
与此同时,Microsoft还推出Rho-alpha Research Early Access Program,面向希望将Rho-alpha接入自身机器人系统,或探索更多应用场景的合作伙伴开放。
华盛顿大学教授Abhishek Gupta表示,通过远程操控机器人系统获取训练数据,已经成为行业标准做法。不过,许多场景并不适合、甚至无法采用远程操控。他表示,目前正与Microsoft Research合作,将仿真与强化学习结合,构建多样化的合成示范(synthetic demonstrations)数据,以补充从真实机器人采集的预训练数据集。