AI x 机器人爆发年：英伟达 Jim Fan 领衔登月任务，谷歌 DeepMind 新技术曝光

新智元
2024-02-28 16:50

【新智元导读】AI x 机器人正逐渐走上时代的风口，近日，谷歌 DeepMind 以及英伟达两家 AI 大厂都在机器人领域有所动作。

AI x 机器人必然是今年持续火爆的一条路线。近日，谷歌 DeepMind 以及英伟达两家 AI 大厂透露了自己在机器人相关领域的进展。

Jim Fan 近日在推上表示正在与自己的老朋友 Yuke Zhu 合作，共同创立一个名为 GEAR 的新研究小组，来进行「Generalist Embodied Agent Research」：

「我们相信，在未来，每台移动的机器都将是自主的，机器人和模拟代理将像 iPhone 一样无处不在。我们正在构建一个具有通用能力的人工智能，可以学习在许多虚拟和现实世界中熟练地行动。」

Jim Fan 将 2024 年称为机器人年、游戏 AI 年和模拟年。

「我们正在着手执行登月任务，到达那里将带来大量的学习和突破。」

面对英伟达的「登月」，谷歌 DeepMind 拿出的是一条狗：

将人机交互表述为一个部分可观察的马尔可夫决策过程（其中人类语言输入是观察，机器人代码输出是动作），那么训练完成先前的交互可以被视为训练 LLM 一个过渡动力学模型 —— 它可以与经典的机器人技术（如模型预测控制（MPC））相结合，以发现更短的成功路径。

研究人员对 Palm 2-S 进行了微调，使机器人能够更快地从人类互动中学习，与传统的 RAG 和 LMPC-Skip 相比，新方法在可教性方面实现了最大的改进。

GEAR

GEAR 的官方页面展示了 4 个有趣的项目：

Eureka

GPT-4 能教机器人转笔吗？看看下面的视频，是不是 6 的飞起？

这个开放式 Agent 名为 Eureka，为使机器人到达超越人类的灵巧性而设计奖励机制。

Eureka 弥合了高级推理（编码）和低级电机控制之间的差距。它是一种混合梯度架构：一个黑匣子（LLM 推理），指示一个白盒（可学习的神经网络）。

外部循环运行 GPT-4 来优化奖励函数（无梯度），而内部循环运行强化学习来训练机器人控制器（基于梯度）。

这是一款 GPU 加速的物理模拟器，可将现实速度提高 1000 倍。在 10 个机器人的 29 个任务的基准套件中，Eureka 奖励在 83% 的任务上比专家人工编写的任务平均提高了 52%。

Eureka 还支持一种新形式的上下文 RLHF，它能够将人类操作员的反馈纳入自然语言中，以引导和调整奖励功能。它可以作为机器人工程师设计复杂电机行为的强大助力。

论文地址：点此直达

代码地址：点此直达

Voyager

下面是训练 Agent 玩游戏，项目名为 Voyager，以 GPT-4 为驱动，是第一个纯粹在上下文中玩 Minecraft 的终身学习代理：

Voyager 通过编写，完善，提交和从技能库中检索代码来不断改进自己。

这就涉及到由 GPT-4 开启的一种新范式：训练是代码执行而不是梯度下降。

训练模型是 Voyager 迭代编写的技能代码库，而不是浮点数矩阵。这个无梯度架构将不断发展。

论文地址：点此直达

代码地址：点此直达

Voyager 有 3 个关键组件：

首先，Voyager 尝试使用流行的 Javascript Minecraft API 编写一个程序来实现特定目标。该程序在第一次尝试时可能不正确。游戏环境反馈和 javascript 执行错误有助于 GPT-4 完善程序。

其次，Voyager 通过将成功的程序存储在向量数据库中来增量构建技能库。每个程序都可以通过嵌入其文档字符串来检索。复杂的技能是通过组合更简单的技能来合成的，随着时间的推移，增强了 Voyager 的能力。

第三，自动课程会根据智能体当前的技能水平和世界状态提出合适的探索任务，例如，如果智能体发现自己处于沙漠中，则先学习收获沙子和仙人掌。

MineDojo

MineDojo：将 Minecraft 变成 AGI 研究游乐场的开放框架。研究人员收集了 100000 个 YouTube 视频、Wiki 页面和 Reddit 帖子，用于培训 Minecraft 代理。

这项工作也获得了 NeurIPS 2022 的最佳论文。

Jim Fan 认为，通才代理的出现有 3 个主要成分。首先，一个开放的环境，允许无限种任务和目标。地球就是一个例子，因为它足够丰富，可以锻造出一棵不断扩大的生命形式和行为之树。

其次，一个大规模的知识库，不仅教人工智能如何做事，还教人工智能做什么。GPT-3 仅从网络文本中学习，但我们能否为我们的代理提供更丰富的数据，例如视频演练、多媒体教程和自由格式的 wiki?

第三，代理架构足够灵活，可以在开放式环境中执行任何任务，并且具有足够的可扩展性，可以将大规模、多模态的知识源转换为可操作的见解。

Jim Fan 表示，基础模型的未来将是积极主动采取行动、无休止地探索世界并不断自我完善的代理。

论文地址：点此直达

代码地址：点此直达

VIMA

VIMA：第一款带有机械臂的多式联运 LLM！引入了用于机器人学习的多模态提示。

多模态提示使用户的任务规范变得更加容易和灵活。通过单一模型，VIMA 统一了各种任务，如视觉目标达到、视频演示的一次性模仿、新颖的概念学习和安全约束满足。

VIMA 代表 VisuoMotor Attention。它是一个 Transformer，在提示符中对一系列多模态 token 进行编码，并自回归地解码机械臂控制。

这项工作也在去年的 ICML 上进行了海报展示。

论文地址：点此直达

代码地址：点此直达

DeepMind 的狗

论文地址：点此直达

如下图所示，给定一个用户用语言教机器人新任务的数据集（表示为在线上下文学习的文本输入和代码输出，图左），LMPC-Rollouts 经过训练，以预测以当前聊天记录为条件的后续输入和输出（图中间，并使用 MPC 后退水平控制）进行推理时搜索，以返回下一个最佳操作（成功前的预期更正最少）。

LMPC-Skip 是一种替代变体，经过训练可直接预测最后一个操作（图右）。两种 LMPC 变体都通过上下文学习加速了机器人的快速适应。

研究人员通过实验评估了各种提出的微调策略（缓慢适应）在多大程度上改善了人类的在线情境学习（快速适应）。

通过自然语言反馈交互式地教授，对 78 个机器人任务进行评估，包括 5 个机器人仿真案例和 2 个真实硬件实施。并特别探讨以下问题：

- 微调在多大程度上提高了可教性，尤其是在测试任务上？
- LMPC-Rollouts 和 LMPC-Skip 如何比较？
- 顶级用户调节有什么好处？
- 微调是否能够实现交叉实施例泛化？
- 迭代微调能否进一步提高可教性？

论文中使用 LMPC-Rollouts 和 LMPC-Skip 对 LLM 进行了微调，提高了基础模型（PaLM 2-S）的可教性，并在所有实施例中都优于 RAG 基线。

从上图可以看出，LMPC-Skip 过度拟合训练任务（左），而 LMPC-Rollouts 在多轮会话的测试任务（右）上推广得更好，也就意味着更易于教学和对反馈做出反应。

上面的结果表明，为了在实践中最大限度地提高性能，应该使用 LMPC-Skip 来响应初始用户指令，然后使用 LMPC-Rollouts 来响应后续用户反馈。

对于 RAG，虽然该方法在总体成功率方面改进了基础模型，但在测试任务上，它实现的成功任务率低于基础模型。虽然 RAG 可能擅长提高与检索到的示例类似的任务的成功率，但它很难在新任务上表现出色。

参考资料：

https://twitter.com/adcock_brett/status/1761814066748670071

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。