深圳大学和特拉维夫大学最新成果，AI 编辑人脸终于告别 P 一处而毁全图

2022-02-16 13:01量子位 - 丰色

“Attention is all you need！”这句名言又在新的领域得到了印证。来自深圳大学和特拉维夫大学的最新成果，通过在 GAN 中引入注意力机制，成功解决了编辑人脸时会产生的一些“手抖”问题：

比如改变人的发型时把背景弄乱；

加胡子时影响到头发、甚至整张脸都不太像是同一个人了：

这个有了注意力机制的新模型，修改图像时清清爽爽，完全不会对目标区域之外产生任何影响。

具体怎么实现？

引入注意力图

此模型名叫 FEAT （Face Editing with Attention），它是在 StyleGAN 生成器的基础上，引入注意力机制。

具体来说就是利用 StyleGAN2 的潜空间进行人脸编辑。其映射器（Mapper）建立在之前的方法之上，通过学习潜空间的偏置（offset）来修改图像。

为了只对目标区域进行修改，FEAT 在此引入了注意图（attention map），将源潜码获得的特征与移位潜码的特征进行融合。

为了指导编辑，模型还引入了 CLIP，它可以用文本学习偏移量并生成注意图。FEAT 的具体流程如下：

首先，给定一张具有 n 个特征的图像。如上图所示，浅蓝色代表特征，黄色部分标记通道数量。然后在文字提示的指导下，为所有能预测相应偏置（offset）的样式代码（style code）生成映射器。

这个映射器通过潜码加偏置（w_j+ Δ_j）修改，生成映射图像。再接着，用注意力模块生成的 attention map 将原始图像和映射图像的第 i 层特征进行融合，生成我们要的编辑效果。

其中，注意力模块的架构如下：左侧是用于特征提取的 StyleGAN2 生成器，右为用于制作注意图的 Attention Network。

在实验对比环节中，研究人员首先将 FEAT 与最近提出的两种基于文本的操作模型进行比较：TediGAN 和 StyleCLIP。其中 TediGAN 将图像和文本都编码到 StyleGAN 潜空间中，StyleCLIP 则实现了三种将 CLIP 与 StyleGAN 相结合的技术。

可以看到，FEAT 实现了对面部的精确控制，没有对目标区域以外的地方产生任何影响。而 TediGAN 不仅没有对发型改变成功，还把肤色变暗了（第一行最右）。在第二组对表情的改变中，又把性别给改了（第二行最右）。

StyleCLIP 整体效果比 TediGAN 好很多，但代价是变得凌乱的背景（上两张图中的第三列，每张效果的背景都受到了影响）。接着将 FEAT 与 InterFaceGAN 和 StyleFlow 进行比较。

其中 InterfaceGAN 在 GAN 潜空间中执行线性操作，而 StyleFlow 则在潜空间中提取非线性编辑路径。结果如下：

这是一组加胡子的编辑，可以看到 InterfaceGAN 和 StyleFlow 在此操作之余对头发和眉毛做了细微改动。除此之外，这两种方法还需要标记数据进行监督，不能像 FEAT 一样进行零样本操作。

在定量实验中，FEAT 也展现出了它的优越性。在五个属性的编辑结果中，FEAT 比 TediGAN 和 StyleCLIP 在视觉质量（FID 得分）和特征保留（CS 和 ED 得分）方面表现更佳。

一作侯贤旭来自深圳大学。

他本科和硕士毕业于中国矿业大学地理学和地质学专业，博士毕业于诺丁汉大学计算机科学专业，主要研究方向为计算机视觉和深度学习。

通讯作者为沈琳琳，深圳大学模式识别与智能系统专业硕士生导师，目前研究方向为人脸 / 指纹 / 掌纹等生物特征识别、医学图象处理、模式识别系统。他本硕毕业于上海交大应用电子专业，博士也毕业于诺丁汉大学。其谷歌学术引用次数已达 7936 次。

论文地址：

https://arxiv.org/abs/2202.02713

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。