NVIDIA发布机器人自我训练框架ENPIRE：8台双臂机器人4项任务实测成功率达99%

NVIDIA公布机器人学习框架ENPIRE。该框架借助AI编码代理，使真实机器人能够在无人干预的情况下持续完成学习、测试和迭代。

据科技媒体Decrypt 17日（当地时间）报道，NVIDIA已联合Carnegie Mellon University和UC Berkeley（加州大学伯克利分校）以论文形式发布这一系统。

从机制上看，ENPIRE的运行分为两个阶段。首先由人工完成一次初始化设置，包括制定将工作空间恢复至初始状态的复位流程，并基于摄像头画面构建用于判断任务成败的奖励函数。此后，AI代理会自主检索研究论文、选择技术路线，并在模仿学习、强化学习和基于规则的方法之间进行取舍，随后改写代码并在真实机器人上反复测试，整个循环过程无需人工介入。

ENPIRE的核心在于，AI编码代理不再只负责局部代码生成，而是直接接管机器人训练的完整流程。此前，OpenAI Codex、Anthropic Claude Code、Moonshot Kimi Code等编码代理已经能够自动完成“编写代码—测试—修改”的闭环，但应用场景大多局限于屏幕环境。

为验证这一框架，NVIDIA在自家GEAR Lab部署了8台双臂机器人。每个工位均配备独立硬件、计算机和编码代理，并通过Git共享训练结果。一旦某台机器人找到更优方案，相关成果可在数分钟内同步到全部设备。

实验结果显示，这套系统可以完成PIN插入4毫米孔洞、安装显卡、剪断扎带等任务，在4项真实环境任务中的成功率达到99%。其中，PIN插入任务的表现甚至优于人工操作。

随着机器人数量增加，训练效率也明显提升。NVIDIA表示，当规模从1台扩展至8台后，Push-T任务达到熟练水平所需时间由约5小时缩短至2小时；PIN插入任务则从90多分钟缩短至约40分钟。不过，Token开销的增速快于训练时间的下降幅度，这也成为系统扩展的一项限制。

NVIDIA AI研究负责人、GEAR Lab联合负责人Jim Fan表示，该项目的目标是首次将“物理世界中的自动研究（AutoResearch）”变为现实。按照他的说法，团队向代理分配了多台机器人、GPU资源以及充足的Token预算，并要求其尽快解决任务，同时让机器人持续运转。

不过，模拟环境中的成果并未完全复制到真实世界。三种编码代理都能在模拟器中完成Push-T任务，但迁移到真实机器人后，其中两种未能成功。分析认为，主要原因在于现实环境中的变量与模拟器设定并不一致。

NVIDIA还在仿真基准RoboCasa上测试了ENPIRE。该基准以厨房环境为场景。结果显示，ENPIRE的表现优于NVIDIA的端到端模型GR00T，也强于省略自动研究流程的“工具使用型代理”CaP-X。

ENPIRE也被视为NVIDIA于2023年推出的Eureka的延伸。Eureka主要是在模拟器中利用语言模型为机器人编写奖励函数，而ENPIRE则将这一自我改进闭环扩展到真实硬件，不仅能够生成奖励函数，还可由代理负责实验设计、代码修改和结果验证。

与此同时，面向机器人的AI竞争也在加速。阿里巴巴同周发布了Qwen-Robot Suite，包含面向机器人移动、操作和物理仿真的3款基础模型。阿里巴巴主打为非自研硬件提供软件“大脑”，NVIDIA则更侧重在自有硬件上实现研究闭环自动化。这也意味着，真实机器人正成为AI编码代理竞争的下一个重要战场。

Yoonseo Lee yslee@d-today.co.kr

关键词