首个 VR 端 3D 角色扮演 AI 发布：端到端 VLA 模型驱动，唱跳都能陪你玩

新智元
2024-12-09 13:55

世界上第一个 VR 端 3D 版的角色扮演 AI 就在刚刚诞生了！

AI 角色扮演类游戏（如 C.AI、Talkie）从发布以来，一直都是人们最喜欢的 AI 产品之一。虽然广受欢迎，但不少用户提出，期待和这些角色在 VR 中有更进一步的交流。

近日，来自南洋理工大学的研究团队在 VR 中实现了第一个 3D 版角色扮演 AI 系统 SOLAMI，并公开其详细的技术报告。没错，这意味着和各种角色在 VR 中沉浸式聊天已经是可实现的！

项目主页：https://solami-ai.github.io/
技术报告：https://arxiv.org/abs/2412.00174
完整介绍视频：

从技术报告中我们可以看到，SOLAMI 支持多种角色，有超级英雄蝙蝠侠，小可爱机器人，二次元老婆，香蕉猫……

SOLAMI 驱动的 AI 角色能识别用户的肢体语言，从而去关心和理解用户：

想让角色跳个舞？只要说句话，角色就能听懂做到：

还可以和角色玩游戏，比如跟着用户节奏动起来，或者剪刀石头布：

那么 SOLAMI 提出的动机是什么？模型是怎么工作的？使用了什么样的数据训练的？

研究背景

大家有没有想过和一个虚拟角色进行面对面的深度对话？不仅仅是简单的语言交流, 而是能像现实社交一样, 观察对方的面部表情、自然的身体语言, 甚至是细微的情绪变化。

心理学研究表明，在社交互动中，沉浸程度越高，用户体验就越好。但目前的 AI 角色（如 Character.ai 等) 仍然局限于文本或者语音的交互。这促使我们思考：如何构建具有更丰富模态的 3D 自主角色呢？

要实现这个目标，主要面临两个挑战：

1. 3D 角色需要准确观察和理解用户行为信息，并基于上下文和角色设定通过语音、肢体动作和表情做出合适的回应。这已经超越了之前的单一任务（动作理解，动作生成，语音驱动肢体等）的范畴。
2. 数据稀缺的问题。人和 3D 角色进行多模态交互的数据极其稀缺，收集这类数据需要复杂的设备和巨大成本。

传统的 LLM-Agent 框架虽然在高层次任务（如规划和记忆）表现不错，但在理解用户行为和提供及时的肢体语言反馈上存在局限。这是因为用文本作为子模块之间联系的媒介会丢失很多细微的信息。

有趣的是，机器人领域的研究给了我们启发：对于低层次的操作任务, 基于 LLM 构建的端到端视觉-语言-行为（Vision-Language-Action，VLA）模型表现更好。数字角色本质上就是虚拟人形态的机器人，那么构建一个偏向于社交互动的 VLA 模型会不会是一个有潜力的方向？

Social VLA 模型

SOLAMI 推理图

如图所示，SOLAMI 中所有角色的驱动都是由一个统一的端到端 VLA 多模态模型驱动。给定角色的设定，模型以用户的语音和动作作为输入，将这两种模态通过 Motion Tokenizer 和 Speech Tokenizer 分别编码为 LLM 新的词表中的 token，LLM 基座会自回归输出角色的语音和动作 token，再通过解码器分别解码为角色的 3D 动作和语音，来驱动角色做出反应。

与 GPT-4o 相比，这个模型多了个用户动作的模态，用于理解用户的肢体语言，生成角色的动作。

在这里，用户的动作以 SMPL-X 的 3D 旋转进行表示，动作被拆为三个部分：相对于 3D 角色的相对位置，肢体动作，和手部动作。分别经过 3 个 VQVAE 进行编码。用户的语音使用 RVQ-VAE 结构进行编码，使用的 SoundStorm 进行解码，在解码过程中，只要输入小段角色的语音作为 prompt，就可以实现声音克隆。

SOLAMI 训练过程

模型的训练主要分为两个阶段：多任务预训练和指令微调训练。

多任务预训练阶段主要使用动作-文本、语音-文本相关的数据集进行训练，训练任务包括 text-to-speech, automatic speech recognition，speech-to-speech，motion understanding，motion generation，interactive motion generation 六个任务。目的在于让 SOLAMI 学习动作、语音和文本之间的关联。

指令微调阶段主要训练模型进行多轮多模态对话的能力。使用合成的数据集，模型被要求学习基于角色设定和用户输入该如何做出语音和动作的反馈。

数据收集

用于训练模型的数据是相当稀缺的。毕竟，很少人能和蝙蝠侠面对面说过话。因此，研究人员考虑使用现有不同模态的数据进行合成。

首先，研究人员基于公开的动作-文本数据集构建了一个大规模的带有语义标注的动作库，包含 4 万多个人体动作，然后使用 GPT-4o 生成角色和用户对话的纯文本的台词剧本。

根据生成的剧本动作，从动作库检索最合适的已有动作，根据检索到的动作修缮好对应的台词。这样生成的文字剧本能和合成数据中的动作较好吻合。最后，通过声音克隆合成角色特有声音。这样，一个低成本可用的合成数据集得以实现。

SOLAMI 合成数据管线

VR 工程实现

SOLAMI VR 工程框架

研究人员基于 Oculus Quest 3 开发了一个完整的 VR 交互系统。

前端支持用户与 3D 虚拟角色的沉浸式交互，后端由 2 块 H800 GPU 提供计算支持，可以支持多种模型和方法。

在交互时，VR 头显会实时捕捉用户的语音和全身动作，发送给后端。后端运行 SOLAMI 模型，生成角色的语音、肢体动作和面部表情响应，发送给前端来驱动角色。

实验结果

在本工作中，研究人员希望探讨两个问题：与纯语音相比，3D 角色与动作是否会给 AI 角色扮演带来体验提升？与 LLM-Agent 结构相比，端到端的 VLA 结构是否在交互质量和延迟上有体验提升？

为此，研究人员选择了两种对比方法：LLM+Speech，DLP（MoitonGPT）。前者是纯语音的交互，后者是 LLM-Agent 结构驱动的数字角色。为了保证公平，这些方法的基座模型都是 llama2-7B，并使用 vLLM 部署进行加速。

定量实验结果

定量实验结果表明，SOLAMI 在动作质量和语音质量上表现都优于对比方法，并且有较低的事件延迟。消融实验也表明，多任务的预训练对模型最终效果有重要提升。

实验定性分析与 VR 使用流程

除了定量试验外，研究人员还做了用户实验，通过让用户在 VR 头显中跟各种角色互动，并且根据体验进行打分。可以发现 SOLAMI 体验明显好于纯语音方法和 LLM-Agent 结构方法。有趣的是，虽然纯语音方法在对话内容上比 LLM-Agent 结构方法好，但是总体体验上还是弱于后者，这印证了角色和肢体语言在 AI 角色扮演中对于体验的重要性。

消融实验结果

总结

研究人员在这篇工作中，提出了一个 Social VLA 的端到端建模 3D 数字角色的技术框架，一种从现有不完备模态的数据合成多模态社交互动数据的管线，和一个支持用户和角色进行沉浸式互动的 VR 交互系统。

当然，作为一个新的方向，研究者们指出了一些值得探索的方向，比如输入输出模态的设定、数据搜集方式、跨具身问题、长短时记忆问题、技能学习方法等。感兴趣的朋友可以参考技术报告。

参考资料：

https://solami-ai.github.io/

本文来自微信公众号：新智元（ID：AI_era），原标题《首个 VR 端 3D 角色扮演 AI 发布！南洋理工公开 SOLAMI 技术报告，端到端 VLA 模型驱动，唱跳都能陪你玩》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。