ENPIRE系统架构图。图片来源:NVIDIA

NVIDIA公布机器人学习框架ENPIRE。该框架借助AI编码代理,使真实机器人能够在无人干预的情况下持续完成学习、测试和迭代。

据科技媒体Decrypt 17日(当地时间)报道,NVIDIA已联合Carnegie Mellon University和UC Berkeley(加州大学伯克利分校)以论文形式发布这一系统。

从机制上看,ENPIRE的运行分为两个阶段。首先由人工完成一次初始化设置,包括制定将工作空间恢复至初始状态的复位流程,并基于摄像头画面构建用于判断任务成败的奖励函数。此后,AI代理会自主检索研究论文、选择技术路线,并在模仿学习、强化学习和基于规则的方法之间进行取舍,随后改写代码并在真实机器人上反复测试,整个循环过程无需人工介入。

ENPIRE的核心在于,AI编码代理不再只负责局部代码生成,而是直接接管机器人训练的完整流程。此前,OpenAI Codex、Anthropic Claude Code、Moonshot Kimi Code等编码代理已经能够自动完成“编写代码—测试—修改”的闭环,但应用场景大多局限于屏幕环境。

为验证这一框架,NVIDIA在自家GEAR Lab部署了8台双臂机器人。每个工位均配备独立硬件、计算机和编码代理,并通过Git共享训练结果。一旦某台机器人找到更优方案,相关成果可在数分钟内同步到全部设备。

实验结果显示,这套系统可以完成PIN插入4毫米孔洞、安装显卡、剪断扎带等任务,在4项真实环境任务中的成功率达到99%。其中,PIN插入任务的表现甚至优于人工操作。

随着机器人数量增加,训练效率也明显提升。NVIDIA表示,当规模从1台扩展至8台后,Push-T任务达到熟练水平所需时间由约5小时缩短至2小时;PIN插入任务则从90多分钟缩短至约40分钟。不过,Token开销的增速快于训练时间的下降幅度,这也成为系统扩展的一项限制。

NVIDIA AI研究负责人、GEAR Lab联合负责人Jim Fan表示,该项目的目标是首次将“物理世界中的自动研究(AutoResearch)”变为现实。按照他的说法,团队向代理分配了多台机器人、GPU资源以及充足的Token预算,并要求其尽快解决任务,同时让机器人持续运转。

不过,模拟环境中的成果并未完全复制到真实世界。三种编码代理都能在模拟器中完成Push-T任务,但迁移到真实机器人后,其中两种未能成功。分析认为,主要原因在于现实环境中的变量与模拟器设定并不一致。

NVIDIA还在仿真基准RoboCasa上测试了ENPIRE。该基准以厨房环境为场景。结果显示,ENPIRE的表现优于NVIDIA的端到端模型GR00T,也强于省略自动研究流程的“工具使用型代理”CaP-X。

ENPIRE也被视为NVIDIA于2023年推出的Eureka的延伸。Eureka主要是在模拟器中利用语言模型为机器人编写奖励函数,而ENPIRE则将这一自我改进闭环扩展到真实硬件,不仅能够生成奖励函数,还可由代理负责实验设计、代码修改和结果验证。

与此同时,面向机器人的AI竞争也在加速。阿里巴巴同周发布了Qwen-Robot Suite,包含面向机器人移动、操作和物理仿真的3款基础模型。阿里巴巴主打为非自研硬件提供软件“大脑”,NVIDIA则更侧重在自有硬件上实现研究闭环自动化。这也意味着,真实机器人正成为AI编码代理竞争的下一个重要战场。

关键词

#NVIDIA #ENPIRE #AI编码代理 #机器人学习 #模仿学习 #强化学习 #GEAR Lab #Push-T #RoboCasa #GR00T
版权所有 © DigitalToday。未经授权禁止转载或传播。