12 月 19 日消息,生成性对抗网络 GAN 又被开发出一项“不正经”用途。给猫狗加表情:
给马斯克加胡子:
不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。
这就是朱俊彦等人的最新研究成果:
一种利用 GAN 监督学习实现的密集视觉对齐(Visual alignment)方法。
该方法的性能显著优于目前的自监督算法,在多个数据集上的性能都与 SOTA 算法相当,有的甚至还实现了两倍超越。
视觉对齐是计算机视觉中光流、3D 匹配、医学成像、跟踪和增强现实等应用的一个关键要素。
直白地说,比如在人脸识别中,就是不管一张脸是倒着立着还是歪着,任何角度都可以精确识别出哪块是眼睛哪块是鼻子。
而开创性的无监督视觉对齐方法 Congealing,在 MNIST digits 这种简单的二值图像(binary images)上表现得出奇好,在处理大多数具有显著外观和姿势变化的数据集上就差了点。
为了解决这个问题,该团队提出了这个叫做GANgealing 的新视觉对齐方法。
它是一种 GAN 监督算法,同时也受到 Congealing 的启发。
Congealing 模型的框架如下:
首先,在未对齐的数据上训练生成器 G。
然后在生成器 G 的潜空间中通过学习模式 c,来创建一个合成数据集以进行后续对齐。
接着使用该数据集训练空间变换网络 T(STN,Spatial Transformer Networks),最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。
该算法的关键是利用 GAN 的潜空间(在未对齐的数据上训练)为 STN 自动生成成对的训练数据。
并且在这个 GAN 监督学习框架中,STN 和目标图像实现联合学习模式,STN 专门使用 GAN 图像进行训练,并在测试时推广到真实图像。
实验发现,GANgealing 在八个数据集(自行车、狗、猫、汽车、马、电视等)上都能准确找出图片之间的密集对应关系。
其中,每个数据集的第一行表示未对齐的图像和数据集的平均图像(每行最右那张),第二行为转换后的对齐效果,第三行则显示图像之间的密集对应关系。
在图像编辑应用中,GANgealing 可以只在平均图像(下图最左)进行示范,就能在数据集中的其他图像上实现同样的效果 —— 不管这些图像的角度和姿势变换有多大。
比如第一行为给小猫加蝙蝠侠眼镜,最后一行为给汽车车身贴上黑色图案。
在视频编辑中,GANgealing 在每一帧上的效果都相当丝滑,尤其是和监督光流算法(比如如 RAFT)对比,差距非常明显:
因此作者也表示,GANgealing 可以用在混合现实应用中。
而在定量实验中,GANgealing 在非常精确的阈值(<2 像素误差容限)条件下优于现有的监督方法,在有的数据集上甚至表现出很大的优势。
再在具有挑战的 SPair-71K 数据集上将 GANgealing 与几种自监督 SOTA 方法进行性能评估。
比的则是 PCK-Transfer 值(PCK,percentage of keypoints),它衡量的是关键点从源图像转换到目标图像的百分比。
结果发现,GANgealing 在 3 个类别上的表现都明显优于目前的方法,尤其是在自行车和猫图集上实现了对自监督方法 CNNgeo 和 A2Net 的两倍超越。
当然,GANgealing 在数据集图片与示例差太多时表现得就不太好,比如面对下面这种侧脸的猫以及张开翅膀的小鸟。
GANgealing 的作者们分别来自 UC 伯克利、CMU、Adobe 以及 MIT。
一作为 UC 伯克利三年级的博士生 Bill Peebles,研究方向为无监督学习,重点是图像和视频的深度生成模型。
目前在 CMU 担任助理教授的青年大牛朱俊彦也在其中。
通讯作者为 Adobe Research 的高级首席科学家 Eli Shechtman,他发表了 100 多篇论文,曾获得 ECCV 2002 最佳论文奖、WACV 2018 最佳论文奖、FG 2020 最佳论文亚军以及 ICCV 2017 的时间检验奖等荣誉。
论文地址:点击打开
代码:点击打开
项目主页:点击打开
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。