从 1 小时到 3.5 分钟，Meta 新算法一部手机搞定 3D 人脸数据采集，可用于 VR 的那种

2022-07-06 14:01量子位(鱼羊)17评

搞定这样的人脸 3D 建模需要几步？

在数据采集的阶段，答案是：一部手机 + 3.5 分钟。

没错，仅凭这 3.5 分钟的数据，就足以生成高保真、可驱动的真实 3D 人脸头像。

这项研究来自 Meta Reality Labs—— 就是扎克伯格元宇宙计划里的那个核心部门。论文已经被 SIGGRAPH 2022 接收。

作者提到，这一方法适用于 VR 应用。

也就是说，在 VR 的世界里，以后你可能就不必顶着一张卡通脸登场了。

而是可以方便地与胖友们“真身”相见。

方法原理

实现这一结果的方法框架如下图所示：

具体而言，分为三个部分。

首先，是要用大型多视角人脸数据集训练一个超网络，这个超网络可以通过神经网络解码器产生专属于个人的头像参数。

数据集中的人脸由多视角捕捉系统采集，包括 255 位不同年龄、性别和种族参与者的面部图像数据。

△ 左为图像捕获设备；右为采集到的人脸

这个捕获 3D 人脸的巨型装置是 Meta 在 2019 年研发的，其中配备 171 个高分辨率摄像头，每秒能记录 180GB 数据。采集时间在 1 个小时左右。

值得一提的是，在这个超网络中，解码器的基本组成模块是带有 bias map 的卷积上采样层。

这些 bias map 会被用来生成体积单元，进而通过射线追踪来渲染头像。

另外，该解码器结构能够将视线与其他面部活动区分开，这在 VR 应用中意味着能够更直接地利用眼动跟踪系统。

其次，是轻量级人脸表情捕捉。

在这项研究中，采集人脸只需要用到一部带有深度摄像头的智能手机。

实验中，研究人员采用的是 iPhone 12。

采集过程就像这样：

采集到的数据要进行如下处理：

在进一步完善模型的过程中，还需要采集 65 种特定的表情：

最后，该方法输出的 3D 人脸头像不仅能与用户外观高度匹配，通过全局表情空间，还能对其进行进一步的驱动、控制。

研究人员表示，整个采集过程大概要花费 3.5 分钟。

不过需要说明的是，建模的过程不是实时的，数据处理还要花费数小时的时间。

说了这么多，效果如何，我们还是来看实验结果。

与 Pinscreen 提出的“一张照片构建 3D 数字化身”（CVPR 2021）的方法相比，该方法能生成更具真实感的人脸模型。

而与海德堡大学、慕尼黑工业大学、马普所等研究机构在 Neural Head Avatars from Monocular RGB Videos 一文中提出的方法相比，该方法能生成保真度更高的结果。

不过，作者也指出了该方法的局限性：hold 不太住长发和眼镜，容易产生伪影。另外，该方法对于光照条件也有一定要求。

参考链接：

[1] 论文：https://drive.google.com/file / d/1i4NJKAggS82wqMamCJ1OHRGgViuyoY6R / view
[2]Demo：https://www.youtube.com/watch?v=t7_TMD7v0Xs

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

Meta、微软、Epic 等加入，成立两周的元宇宙标准论坛到底在干嘛

效仿欧盟，日本法院或要求大型科技企业开放算法

Meta 让 AI 视频计算成本暴降 95%，图片遮住一半 AI 也能猜出原图

大家都在买广告

热门评论