几何纹理重建新 SOTA！浙大提出 SIFU：单图即可重建高质量 3D 人体模型

新智元
2024-01-18 23:54

【新智元导读】最近来自浙江大学 ReLER 实验室的研究人员提出 SIFU 模型，一种侧视图条件隐函数模型用于单张图片 3D 人体重建。模型通过引入人体侧视图作为先验条件，并结合扩散模型进行纹理增强，在几何与纹理重建测试中均达到 SOTA，并且在真实世界中具有多种应用场景。

在 AR、VR、3D 打印、场景搭建以及电影制作等多个领域中，高质量的穿着衣服的人体 3D 模型非常重要。

传统的方法创建这些模型不仅需要大量时间，还需要能够捕捉多视角照片的专业设备，此外还依赖于技术熟练的专业人员。

▲ SIFU 重建 3D 人体模型用于场景搭建

与此相反，在日常生活中，我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。

因此，一种能从单张图像准确重建 3D 人体模型的方法可以显著降低成本，并简化独立创作的过程。

▲ 以往方法（左）与本文方法技术路线比较（右）

以往的深度学习模型用于 3D 人体重建，往往需要经过三个步骤：从图像中提取 2D 特征，将 2D 特征转到 3D 空间，以及 3D 特征用于人体重建。

然而这些方法在 2D 特征转换到 3D 空间的阶段，往往忽略了人体先验的引入，导致特征的提取不够充分，最终重建结果上会出现各种缺陷。

▲ SIFU 与其他 SOTA 模型重建效果比较

此外，在对纹理预测的阶段，以往模型仅仅依靠训练集中学得的知识，缺少真实世界的先验知识，也往往导致不可见区域的纹理预测较差。

▲ SIFU 在纹理预测阶段引入先验知识，增强不可见区域（背部等）的纹理效果。

对此，来自浙江大学 ReLER 实验室的研究人员提出 SIFU 模型，依靠侧视图条件隐函数从单张图片重建 3D 人体模型。

论文地址：https://arxiv.org/ abs / 2312.06704
项目地址：https://github.com/ River-Zhang / SIFU

该模型通过在 2D 特征转换到 3D 空间引入人体侧视图作为先验条件，增强几何重建效果。并在纹理优化阶段引入预训练的扩散模型，来解决不可见区域纹理较差的问题。

模型结构

模型 pipeline 如下：

该模型运行可分为两个阶段，第一阶段借助侧隐式函数重建人体的几何（mesh）与粗糙的纹理（coarse texture），第二阶段则借助预训练的扩散模型对纹理进行精细化。

在第一阶段中，作者设计了一种独特的 Side-view Decoupling Transformer，通过 global encoder 提取 2D 特征后，在 decoder 中引入了人体先验模型 SMPL-X 的侧视图作为 query，从而在图像 2D 特征中解耦出人体不同方向的 3D 特征（前后左右），最后用于重建。

该方法成功的在 2D 特征转换到 3D 空间时结合人体先验知识，从而使得模型有更好的重建效果。

在第二阶段，作者提出一种 3D 一致性纹理优化流程（3D Consistent Texture Refinement），首先将人体不可见的区域（侧面、背面）可微渲染成视角连续的图片集，再借助在海量数据中学习到先验知识的扩散模型，对粗糙纹理图片进行一致性编辑，得到更精细的结果。最后通过精细化前后的图片计算损失来优化 3D 模型的纹理贴图。