机器人专用AI模型的研发正在加速,围绕技术主导权的路线竞争也日趋明显。
据 The Information 报道,当前行业主要分为两条技术路径:一类是由大语言模型(LLM)延伸而来的 VLA(vision-language-action models),另一类则是 World Model。后者主要通过视频等数据学习物理世界,并预测机器人执行动作后环境可能出现的变化。
在 VLA 路线中,Nvidia 的 Groot 和 Physical Intelligence 的 pi 是目前市场关注度较高的代表模型。
Microsoft 今年1月发布的物理AI机器人模型 Rho-alpha,同样基于 VLA 架构。Microsoft 表示,Rho-alpha 的目标是提升物理系统的灵活适应能力。
按照 Microsoft 的说法,过去几十年,机器人主要在装配线等规则明确、可预测性较强的结构化环境中表现突出。随着面向物理系统的 VLA 模型出现,机器人有望进一步进入更复杂、更多变的非结构化环境,与人类协同完成自主感知、推理和行动。
不过,近期硅谷对 World Model 的兴趣也在快速升温。
AI 视频生成初创公司 Luma 已于6月设立聚焦机器人 World Model 的物理AI实验室;人形机器人初创公司 1X 也宣布将成立自己的 World Model 研究所。
支持者认为,World Model 更有可能深入理解物理规律,不仅能预测物体坠落、破碎等现实情况,还能生成供机器人训练使用的仿真环境,并在机器人系统中发挥核心决策模型的作用。
卡内基梅隆大学计算机科学学院院长 Marshall Eber 表示,现有语言模型的局限性在机器人场景中暴露得尤为明显。他指出,机器人要完成拿起咖啡杯这样的动作,涉及手部如何移动、如何与杯体发生物理接触等问题,其复杂程度远高于“预测下一个词”。
不过,批评者也认为,World Model 目前仍然容易出错,尚无法对现实世界进行高精度模拟。即便如此,在投资者下调对 VLA 预期的背景下,World Model 仍在获得越来越多关注。
报道称,Nvidia 的 Groot、Physical Intelligence 的 pi 等 VLA 模型,借助基础语言模型的智能能力和自然语言理解能力,已经取得一定进展。但在问世近两年后,VLA 整体在真实生产现场驱动机器人方面,仍缺乏足够的可靠性。
为工业厨房提供餐食组装机器人的 Chef Robotics 首席执行官 Rajat Bhageria 表示,其团队一直在测试使用 VLA 驱动机器人,但从长期看,World Model 的前景更值得关注。在他看来,现阶段 VLA 运行速度偏慢,可靠性也不足,距离真正落地仍有距离。
Rajat Bhageria 还提到,自动驾驶服务公司 Waymo 正在使用 Google DeepMind 的 Genie 3 所构建的 World Model,以模拟龙卷风、道路上突然出现大象等极端罕见路况。
不过,也有观点认为,若仅以“World Model 对 VLA”的二元对立框架来理解机器人AI模型格局,并不现实。
The Information 提到,Nvidia 的 World Model Cosmos 3 就融合了 World Model 与 VLA 的部分能力,不仅可以分析文本和图像,还能够生成更符合物理规律的视频内容。
近期,一组机器人学研究团队也强调,机器人真正需要的并不只有 VLA 和 World Model,争论哪一类模型更优并非核心问题。更大的挑战在于,如何将互联网视频等物理世界数据,转化为更适合机器人学习的数据形态。