Nvidia 的 ENPIRE 让 AI 编码代理在无需人类干预下教导机器人
要点
来自 Nvidia、卡内基梅隆大学和加州大学伯克利分校的研究人员提出 ENPIRE,一个将 AI 编码代理完全掌控物理机器人训练的框架,无需人类监督。该系统仅需一次性的人类设置来建立重置例程和基于相机的奖励函数;此后,代理会检索文献、选择训练方法、编写并运行代码,并直接在硬件上反复迭代。在实验中,八台机器人组成的舰队在插销插入、GPU 就位和扎带切割等任务上达到了约 99% 的成功率,且扩展到多机器人明显减少了墙钟训练时间。
情绪分析
- 总体情绪对 ENPIRE 的技术成就及其把自动研究从仿真带入真实世界的潜力持积极且乐观的看法。报告中的 99% 成功率以及能够在八机器人舰队上扩展学习的能力,表明了强烈的实用前景。下方进度条代表对其即时影响的有利但谨慎的展望:
文章正文
Nvidia 与卡内基梅隆大学及加州大学伯克利分校的研究人员共同发表了一篇论文,描述 ENPIRE——一个使 AI 编码代理能够在物理硬件上运行完整机器人技能获取循环而无需持续人类监督的框架。不同于早期仍停留在仿真环境的自动研究工作,ENPIRE 将生成代码、测试、评估与修订的循环移入物理世界,因为在真实环境中失败具有现实成本,且重置实验需要移动实际的机器人机械臂。
该框架包含一个适度的人为设置阶段和一个自主阶段。在设置阶段,人类设计两个可重用的组件:将工作区返回到已知起始状态的重置例程,以及从相机画面评估成功的视觉奖励函数。这些组件只需创建一次,然后在重复试验中重用,允许编码代理接管其余过程。
在设置完成后,诸如 OpenAI 的 Codex、Anthropic 的 Claude Code 或 Moonshot 的 Kimi Code 等编码代理负责检索既有工作、选择训练方法——模仿学习、强化学习或手写启发式——编写或重写自己的代码,并在物理机器人上执行实验。代理通过共享版本控制在多个机器人工位间协调,使成功的想法能够迅速在舰队中传播。
ENPIRE 在 Nvidia 的 GEAR 实验室的八个双手工位上进行了测试。每个工位运行自己的代理和硬件栈;工位通过 Git 分享进展,改进可以在数分钟内在整个舰队传播。研究人员在若干任务上评估该系统,包括将 T 形方块滑入目标区域(Push-T)、将销精确插入 4 毫米孔、装入 GPU 以及切割扎带。从一台机器人扩展到八台显著减少了掌握任务所需的时间——例如 Push-T 从单机约五小时降至舰队约两小时,插销插入则从超过 90 分钟降至约 40 分钟。
在测试任务中,代理达到了约 99% 的成功率。就插销插入而言,ENPIRE 的完全自主代理比仍需每日人类干预的可比方法更快达到近乎完美的可靠性。团队为代理提供了计算资源和代币预算,然后允许它们在无人类在环的情况下迭代、观察和改进。
将自动研究循环带入现实世界揭示了仿真与现实之间的差距。三种编码代理在仿真中都解决了 Push-T,但其中两种在面对真实世界的摩擦力和其他仿真器常常忽略的物理效应时失败。此结果强调了 sim-to-real 转移的挑战以及在实际硬件上评估系统的重要性。
ENPIRE 还在名为 RoboCasa 的仿真基准上进行了评估,该基准衡量诸如开柜门与关炉灶等家务任务的表现。在那里,ENPIRE 优于 Nvidia 先前的端到端模型 GR00T 和不执行自主研究的工具使用代理 CaP-X。ENPIRE 建立在早期思路之上,例如在仿真中使用语言模型编写奖励函数的 Eureka;ENPIRE 扩展了这一概念,让代理能在真实机器人上设计并执行自己的测试。
该工作发布之际,体现式 AI 领域的产业活动也在加速:例如阿里巴巴最近发布了 Qwen-Robot Suite,针对导航、操作与仿真等任务。虽然阿里巴巴侧重于为机器人开发发布模型,Nvidia 的方法展示了编码代理可以管理团队控制的硬件上的完整研究循环。这两项发展表明,将越来越有能力的 AI 代理引入物理机器人领域的趋势正在形成。
ENPIRE 的结果令人鼓舞,但也凸显了实践上的考量。仍需人类进行设置以提供稳健的重置与奖励机制,且扩展舰队会增加资源消耗——代币和计算成本随时间节省而上升。此外,仿真到现实的差距仍然是一个障碍;并非所有在仿真中成功的方法都能在未经细致调整的情况下转移到硬件上。尽管如此,实验表明在提供适当基础设施的情况下,自主编码代理能够推动机器人学习方面的实质性改进。
随着代理在设计、实现与验证实验方面持续改进,像 ENPIRE 这样的框架指向一个未来:大量机器人研究的迭代工作可以被自动化。该未来带来了更快进步的机会,但也要求在研究者将自动研究从屏幕移入物理机器人世界时,对安全、监管与资源权衡进行审慎考量。 ENPIRE 表明从仿真到真实世界的机器人自动研究跳跃既可行又具有影响力。
关键见解表
| 方面 | 描述 |
|---|---|
| 框架 | ENPIRE:在一次性人类设置之后,让编码代理在真实硬件上运行端到端的机器人训练。 |
| 人类角色 | 一次性创建重置例程和基于相机的奖励函数;其余由代理自主处理。 |
| 使用的代理 | Codex、Claude Code、Kimi Code(作为执行自动研究的编码代理示例)。 |
| 结果 | 多项任务约 99% 的成功率;多机器人舰队显著减少训练时间。 |
| 挑战 | 仿真到现实的差距、资源成本(计算与代币)以及安全/监管方面的考量。 |