机器人AI模型路线分化：VLA与World Model之争升温

机器人专用AI模型的研发正在加速，围绕技术主导权的路线竞争也日趋明显。

据 The Information 报道，当前行业主要分为两条技术路径：一类是由大语言模型（LLM）延伸而来的 VLA（vision-language-action models），另一类则是 World Model。后者主要通过视频等数据学习物理世界，并预测机器人执行动作后环境可能出现的变化。

在 VLA 路线中，Nvidia 的 Groot 和 Physical Intelligence 的 pi 是目前市场关注度较高的代表模型。

Microsoft 今年1月发布的物理AI机器人模型 Rho-alpha，同样基于 VLA 架构。Microsoft 表示，Rho-alpha 的目标是提升物理系统的灵活适应能力。

按照 Microsoft 的说法，过去几十年，机器人主要在装配线等规则明确、可预测性较强的结构化环境中表现突出。随着面向物理系统的 VLA 模型出现，机器人有望进一步进入更复杂、更多变的非结构化环境，与人类协同完成自主感知、推理和行动。

不过，近期硅谷对 World Model 的兴趣也在快速升温。

AI 视频生成初创公司 Luma 已于6月设立聚焦机器人 World Model 的物理AI实验室；人形机器人初创公司 1X 也宣布将成立自己的 World Model 研究所。

支持者认为，World Model 更有可能深入理解物理规律，不仅能预测物体坠落、破碎等现实情况，还能生成供机器人训练使用的仿真环境，并在机器人系统中发挥核心决策模型的作用。

卡内基梅隆大学计算机科学学院院长 Marshall Eber 表示，现有语言模型的局限性在机器人场景中暴露得尤为明显。他指出，机器人要完成拿起咖啡杯这样的动作，涉及手部如何移动、如何与杯体发生物理接触等问题，其复杂程度远高于“预测下一个词”。

不过，批评者也认为，World Model 目前仍然容易出错，尚无法对现实世界进行高精度模拟。即便如此，在投资者下调对 VLA 预期的背景下，World Model 仍在获得越来越多关注。

报道称，Nvidia 的 Groot、Physical Intelligence 的 pi 等 VLA 模型，借助基础语言模型的智能能力和自然语言理解能力，已经取得一定进展。但在问世近两年后，VLA 整体在真实生产现场驱动机器人方面，仍缺乏足够的可靠性。

为工业厨房提供餐食组装机器人的 Chef Robotics 首席执行官 Rajat Bhageria 表示，其团队一直在测试使用 VLA 驱动机器人，但从长期看，World Model 的前景更值得关注。在他看来，现阶段 VLA 运行速度偏慢，可靠性也不足，距离真正落地仍有距离。

Rajat Bhageria 还提到，自动驾驶服务公司 Waymo 正在使用 Google DeepMind 的 Genie 3 所构建的 World Model，以模拟龙卷风、道路上突然出现大象等极端罕见路况。

不过，也有观点认为，若仅以“World Model 对 VLA”的二元对立框架来理解机器人AI模型格局，并不现实。

The Information 提到，Nvidia 的 World Model Cosmos 3 就融合了 World Model 与 VLA 的部分能力，不仅可以分析文本和图像，还能够生成更符合物理规律的视频内容。

近期，一组机器人学研究团队也强调，机器人真正需要的并不只有 VLA 和 World Model，争论哪一类模型更优并非核心问题。更大的挑战在于，如何将互联网视频等物理世界数据，转化为更适合机器人学习的数据形态。

Chi-gyu Hwang (황치규) delight@d-today.co.kr