英伟达团队机器训练新方法：仅 5 次演示让机器生成 1000 个新 demo

量子位
2024-11-05 12:56

人类只需要演示五次，就能让机器人学会一项复杂技能。

英伟达实验室，提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。五次演示之后，DexMimicGen 就可以直接模仿出 1000 个新的 demo。

而且可用性强，用这些新 demo 训练出的机器人，在仿真环境中的任务成功率可以高达 97%，比用真人数据效果还要好。

参与此项目的英伟达科学家范麟熙（Jim Fan）认为，这种用机器训练机器的方式，解决了机器人领域最大的痛点（指数据收集）。

同时，Jim Fan 还预言：

机器人数据的未来是生成式的，整个机器人学习流程的未来也将是生成式的。

值得一提的是，DexMimicGen 三名共同一作都是李飞飞的“徒孙”，具体说是德克萨斯大学奥斯汀分校（UT 奥斯汀）助理教授朱玉可（Yuke Zhu）的学生。

而且三人均为华人，目前都在英伟达研究院实习。

5 次演示，生成 1000 条数据

如前所述，DexMimicGen 可以仅根据人类的 5 次演示，生成 1000 个新 DEMO。

在整个实验中，作者设置了 9 个场景，涵盖了 3 种机器人形态，共进行了 60 次演示，获得了 21000 多个生成 DEMO。

在仿真环境当中，用 DexMimicGen 生成数据训练出的策略执行整理抽屉这一任务，成功率可达 76%，而单纯使用人工数据只有 0.7%。

对于积木组装任务，成功率也从 3.3% 提升到了 80.7%。

成功率最高的任务是罐子分类，更是高达 97.3%，只用人工数据的成功率同样只有 0.7%。

整体来看，在仿真环境中，生成数据让机器人在作者设计的九类任务上的成功率均明显增加。

相比于 baseline 方法，用 DexMimicGen 生成的数据也更为有效。

迁移到真实环境之后，作者测试了易拉罐分拣的任务，结果仅用了 40 个生成 DEMO，成功率就达到了 90%，而不使用生成数据时的成功率为零。

除此之外，DexMimicGen 还展现了跨任务的泛化能力，使训练出的策略在各种不同任务上表现良好。

针对初始状态分布变化，DexMimicGen 也体现出了较强的鲁棒性，在更广泛的初始状态分布 D1 和 D2 上测试时，仍然能够拥有一定的成功率。

将仿真方法迁移到现实

DexMimicGen 是由 MimicGen 改造而成，MimicGen 也出自英伟达和 UT 奥斯汀的联合团队。

朱玉可和范麟熙都参与过 MimicGen 的工作，该成果发表于 CoRL 2023。

MimicGen 的核心思想，是将人类示范数据分割成以目标物体为中心的片段，然后通过变换物体相对位置和姿态，在新环境中复现人类示范轨迹，从而实现自动化数据生成。

DexMimicGen 则在 MimicGen 系统的基础上，针对双臂机器人灵巧操作任务做了改进和扩展，具体包括几个方面：

引入并行、协调、顺序三种子任务类型，以适应双臂灵巧操作任务的需求；
对应三种子任务类型，设计了异步执行、同步执行和顺序约束等机制，以实现双臂的独立动作、精密协同和特定顺序操作；
实现了“现实-模拟-现实”的框架，通过构建数字孪生，将 DexMimicGen 拓展到了实际机器人系统的应用。

工作流程上，DexMimicGen 会首先对人类示范进行采集和分割。

研究人员通过佩戴 XR 头显，远程控制机器人完成目标任务，在这一过程中就会产生一小批示范数据，作者针对每个任务采集了 5~10 个人类示范样本。

这些人类示范样本会按照并行、协调、顺序三种子任务定义被切分成片段 ——

并行子任务允许两臂独立执行；
协调子任务要求两臂在关键时刻同步动作；
顺序子任务则规定了某些子任务必须在另一些子任务完成后才能执行。

总之，在示范数据被切分后，机器人的每个手臂会得到自己对应的片段集合。

在数据生成开始时，DexMimicGen 随机化模拟环境中物体的位置、姿态等数据，并随机选择一个人类示范作为参考。

对于当前子任务，DexMimicGen 会计算示范片段与当前环境中关键物体位置和姿态的变换。

之后用该变换对参考片段中的机器人动作轨迹进行处理，以使执行这一变换后的轨迹能够与新环境中物体位置匹配。

生成变换后，DexMimicGen 会维护每个手臂的动作队列，手指关节的运动则直接重放示范数据中的动作。

在整个过程中，系统不断检查任务是否成功完成，如果一次执行成功完成了任务，则将执行过程记录下来作为有效的演示数据，失败则将数据丢弃。之后就是将生成过程不断迭代，直到获得足够量的演示数据。

收集好数据后，作者用 DexMimicGen 生成的演示数据训练模仿学习策略，策略的输入为 RGB 相机图像，输出为机器人动作。

最后是模拟到现实的迁移，同样地，作者使用 DexMimicGen 在数字孪生环境中生成的大规模演示数据，训练模仿学习策略。

之后作者对在数字孪生环境中评估训练得到的策略进行调优，以提高其泛化性能和鲁棒性，并迁移到实际机器人系统中。

作者简介

DexMimicGen 的共同一作有三人，都是 UT 奥斯汀的华人学生。

并且三人均出自李飞飞的学生、浙大校友朱玉可（Yuke Zhu）助理教授门下，他们分别是：

博士生 Zhenyu Jiang，本科就读于清华，2020 年进入 UT 奥斯汀，预计将于明年毕业；
硕士生 Yuqi Xie（谢雨齐），本科是上海交大和美国密歇根大学联培，预计毕业时间也是明年；
博士生 Kevin Lin，本科和硕士分别就读于 UC 伯克利和斯坦福，今年加入朱玉可课题组读博。

朱玉可的另一重身份是英伟达的研究科学家，团队的另外两名负责人也都在英伟达。

他们分别是 Ajay Mandlekar 和范麟熙（Jim Fan），也都是李飞飞的学生，Mandlekar 是整个 DexMimicGen 项目组中唯一的非华人。

另外，Zhenjia Xu 和 Weikang Wan 两名华人学者对此项目亦有贡献，整个团队的分工如下：

▲ 中文为机翻，仅供参考

项目主页：

https://dexmimicgen.github.io/

论文地址：

https://arxiv.org/abs/2410.24185

参考链接：

[1]https://x.com/SteveTod1998/status/1852365700372832707
[2]https://x.com/DrJimFan/status/1852383627738239324

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西，原标题《英伟达团队机器训练新方法！仅 5 次演示让机器生成 1000 个新 demo，李飞飞高徒与徒孙联手出品》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。