为推动机器人从实验室走向真实应用场景,蚂蚁集团首次开源面向机器人的核心模型,引发行业关注。
Hong Kong South China Morning Post(SCMP)1月30日援引相关信息报道称,此次开源被视为将人工智能竞争从数字世界进一步推向物理世界的重要动作,也有望加快“具身智能”在感知、推理和动作执行方面的演进。
报道指出,总部位于杭州的蚂蚁集团正在持续加码具身智能方向,即面向真实物理环境中感知、推理与行动一体化的AI系统。作为Alibaba Group Holding旗下金融科技公司,蚂蚁集团通过机器人业务部门Antlingbo Technology(Robbyant)发布了视觉-语言-动作(VLA)模型LingBot-VLA,目标是为机器人提供“通用大脑”能力,并面向产业场景实现更具扩展性的应用落地。
Robbyant首席执行官Zhu Xing表示,具身智能要实现大规模普及,前提是拥有能够在真实硬件上稳定运行、同时兼顾高性能与低成本的基础模型。团队希望借此加快AI与物理世界的融合,更快释放可落地的实际价值。
目前,中国在工业机器人和人形机器人领域被普遍视为处于全球领先梯队。但业内也长期指出,包括Unitree Robotics在内的部分人形机器人,尽管可以完成跳舞、空翻等展示动作,背后往往仍依赖预先编排的程序,在自主性和通用任务执行能力上存在明显局限。也正因此,决定机器人能否真正进入生产场景的核心,仍是“机器人大脑”能力的提升。
根据蚂蚁集团披露的技术文档,LingBot-VLA已在AgiBot双臂机器人以及Galaxea Dynamics、AgileX Robotics等设备上完成测试。在开瓶盖、给哑铃安装杠铃片、剥柠檬皮等100项任务中,该模型相较其他VLA模型展现出更好的泛化能力和学习效率。
不过,蚂蚁集团也坦言,真实机器人数据仍是当前发展的主要瓶颈。尽管该模型使用了约2万小时真实世界数据进行训练,但整体表现仍与美国初创公司Physical Intelligence推出的VLA模型PI*0.6接近。若要实现跨平台的“通用大脑”,仍需更多真实数据支撑。
为缓解数据不足问题,行业正日益关注让机器人在虚拟环境中学习和训练的“世界模型”。此次,蚂蚁集团还同步发布了其首个世界模型LingBot-World,并表示其能力与业内领先系统之一、Google DeepMind的Genie 3处于相近水平。此举也意味着,蚂蚁集团正与腾讯、商汤等公司一道,进入基于世界模型的具身智能竞争赛道。
业内普遍认为,开源有助于加快机器人软件生态扩散,并可能成为推动产业场景应用提速的重要催化剂。但挑战同样明显:如果无法在真实硬件上实现稳定运行,同时持续扩充真实数据供给,机器人大规模进入真实场景的门槛仍难以实质性降低。