.hd-box .hd-fr

英伟达团队机器训练新方法:仅 5 次演示让机器生成 1000 个新 demo

2024-11-05 12:56量子位(克雷西)0评

人类只需要演示五次,就能让机器人学会一项复杂技能。

英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。五次演示之后,DexMimicGen 就可以直接模仿出 1000 个新的 demo。

而且可用性强,用这些新 demo 训练出的机器人,在仿真环境中的任务成功率可以高达 97%,比用真人数据效果还要好。

参与此项目的英伟达科学家范麟熙(Jim Fan)认为,这种用机器训练机器的方式,解决了机器人领域最大的痛点(指数据收集)。

同时,Jim Fan 还预言:

机器人数据的未来是生成式的,整个机器人学习流程的未来也将是生成式的。

值得一提的是,DexMimicGen 三名共同一作都是李飞飞的“徒孙”,具体说是德克萨斯大学奥斯汀分校(UT 奥斯汀)助理教授朱玉可(Yuke Zhu)的学生。

而且三人均为华人,目前都在英伟达研究院实习。

5 次演示,生成 1000 条数据

如前所述,DexMimicGen 可以仅根据人类的 5 次演示,生成 1000 个新 DEMO。

在整个实验中,作者设置了 9 个场景,涵盖了 3 种机器人形态,共进行了 60 次演示,获得了 21000 多个生成 DEMO。

在仿真环境当中,用 DexMimicGen 生成数据训练出的策略执行整理抽屉这一任务,成功率可达 76%,而单纯使用人工数据只有 0.7%。

对于积木组装任务,成功率也从 3.3% 提升到了 80.7%。

成功率最高的任务是罐子分类,更是高达 97.3%,只用人工数据的成功率同样只有 0.7%。

整体来看,在仿真环境中,生成数据让机器人在作者设计的九类任务上的成功率均明显增加。

相比于 baseline 方法,用 DexMimicGen 生成的数据也更为有效。

迁移到真实环境之后,作者测试了易拉罐分拣的任务,结果仅用了 40 个生成 DEMO,成功率就达到了 90%,而不使用生成数据时的成功率为零。

除此之外,DexMimicGen 还展现了跨任务的泛化能力,使训练出的策略在各种不同任务上表现良好。

针对初始状态分布变化,DexMimicGen 也体现出了较强的鲁棒性,在更广泛的初始状态分布 D1 和 D2 上测试时,仍然能够拥有一定的成功率。

将仿真方法迁移到现实

DexMimicGen 是由MimicGen改造而成,MimicGen 也出自英伟达和 UT 奥斯汀的联合团队。

朱玉可和范麟熙都参与过 MimicGen 的工作,该成果发表于 CoRL 2023。

MimicGen 的核心思想,是将人类示范数据分割成以目标物体为中心的片段,然后通过变换物体相对位置和姿态,在新环境中复现人类示范轨迹,从而实现自动化数据生成

DexMimicGen 则在 MimicGen 系统的基础上,针对双臂机器人灵巧操作任务做了改进和扩展,具体包括几个方面:

工作流程上,DexMimicGen 会首先对人类示范进行采集和分割。

研究人员通过佩戴 XR 头显,远程控制机器人完成目标任务,在这一过程中就会产生一小批示范数据,作者针对每个任务采集了 5~10 个人类示范样本。

这些人类示范样本会按照并行、协调、顺序三种子任务定义被切分成片段 ——

总之,在示范数据被切分后,机器人的每个手臂会得到自己对应的片段集合。

在数据生成开始时,DexMimicGen 随机化模拟环境中物体的位置、姿态等数据,并随机选择一个人类示范作为参考。

对于当前子任务,DexMimicGen 会计算示范片段与当前环境中关键物体位置和姿态的变换。

之后用该变换对参考片段中的机器人动作轨迹进行处理,以使执行这一变换后的轨迹能够与新环境中物体位置匹配。

生成变换后,DexMimicGen 会维护每个手臂的动作队列,手指关节的运动则直接重放示范数据中的动作。

在整个过程中,系统不断检查任务是否成功完成,如果一次执行成功完成了任务,则将执行过程记录下来作为有效的演示数据,失败则将数据丢弃。之后就是将生成过程不断迭代,直到获得足够量的演示数据。

收集好数据后,作者用 DexMimicGen 生成的演示数据训练模仿学习策略,策略的输入为 RGB 相机图像,输出为机器人动作。

最后是模拟到现实的迁移,同样地,作者使用 DexMimicGen 在数字孪生环境中生成的大规模演示数据,训练模仿学习策略。

之后作者对在数字孪生环境中评估训练得到的策略进行调优,以提高其泛化性能和鲁棒性,并迁移到实际机器人系统中。

作者简介

DexMimicGen 的共同一作有三人,都是 UT 奥斯汀的华人学生。

并且三人均出自李飞飞的学生、浙大校友朱玉可(Yuke Zhu)助理教授门下,他们分别是:

朱玉可的另一重身份是英伟达的研究科学家,团队的另外两名负责人也都在英伟达。

他们分别是 Ajay Mandlekar 和范麟熙(Jim Fan),也都是李飞飞的学生,Mandlekar 是整个 DexMimicGen 项目组中唯一的非华人。

另外,Zhenjia Xu 和 Weikang Wan 两名华人学者对此项目亦有贡献,整个团队的分工如下:

▲ 中文为机翻,仅供参考

项目主页:

论文地址:

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西,原标题《英伟达团队机器训练新方法!仅 5 次演示让机器生成 1000 个新 demo,李飞飞高徒与徒孙联手出品》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论