.hd-box .hd-fr

何恺明团队 12 页论文新作剑指 AIGC!“新 CLIP”只需一个 trick,训练速度快 3.7 倍!性能不降反升

2022-12-05 13:07量子位(杨净 艳艳)8评
感谢IT之家网友Sancu的线索投递!

何恺明团队又上新了。

这次,他们的成果围绕当下最火的 AIGC 背后的 CLIP 展开。

—— 只在该模型的极简结构上,施加了一个简单的 mask,就让新模型的速度快了 3.7 倍。

同时,性能还可以做到不降反升

团队表示,希望他们的工作能帮助未来视觉语言模型实现规模化。

这波,让大家直呼:不愧是何恺明,还是熟悉的味道啊~

是的,还是“大道至简”的 feel。

就连论文也一如既往,短短 12 页,一行公式也没有。

一起来拜读吧。

引入类似 MAE 的 mask

本文提出了一个用来训练 CLIP 的快速、简单且有效的方法FLIP

Fast Language-Image Pre-training(快速文本-图像预训练方法),也是很直接了。

简单来说,就是基于原有的 CLIP 架构,对输入图像的那一侧,随机掩蔽图像区块,之后只对可见区块编码。

原有 CLIP 架构

更直白来讲,对 CLIP 架构引入类似于 MAE 的思路,于是 FLIP 架构也就变成了这样。

这样一来,既可以减少计算量,提高训练效率,相同的时间可以进行更多图像-文本样本学习;每次迭代还能可对比更多样本,但保持相似的内存占用率。

具体来说,本文采用的是 ViT 作为图像编码器。

图像首先被划分为一个不重叠的网格,并随机地遮蔽掉大部分的区块。本文采用的遮蔽比例为50%75%。随后 ViT 只对可区块编码,时间复杂度相应降低为原来的二分之一(50%),或者四分之一(75%)。

同样的方式还可以用到文本遮蔽上。不过研究者认为由于文本编码器比较小,带来的加速效果并不能带来整体的增益。

不过跟 MAE 不同的是,此次 FLIP 并没有对被遮蔽的图像内容重建,也没有解码器。

MAE 架构

因为他们发现,放弃解码器和重建可以产生更好的速度。虽然编码器在被遮蔽的图像上进行了预训练,但它可以直接应用在完整图像上。

相同性能,速度为 3.7x

总的来看,采用了 mask 机制的 FLIP 相比 CLIP,在准确性和训练时间上取得了平衡,即性能在训练时间大幅减少的情况下,不降反升。

—— 尤其是在 mask 程度高达 50% 和 75% 的情况下。

其中,当 mask=75% 时,FLIP 达到和基线模型 CLIP 相同的性能时,训练速度是它的 3.7x。

这也就意味着,CLIP 花费大约 2500 TPU-days 训练完成时,FLIP 可以大约节省 1800 TPU-days。

这一结果在 ImageNet-1K 验证集上的 Zero-shot transfer 任务中得出,每个不同 mask 比例的模型都在 LAION-400M 上进行了 6.4、12.8 或 32 个 epoch 的训练,包含了 4 亿个图像-文本对。

接着,采用 64k batch,50% mask 比和 unmasked 微调的 FLIP,在 ImageNet-1K 分类数据集上的三个主要指标上也获得了比 CLIP 更好的性能。

注:是比他们复现出来的 CLIP 更好,和原始 CLIP 还差一点,当然,两者数据集不一样。

而在基于各类数据集的大量下游任务中(包括零样本分类、文字 / 图片检索等),FLIP 同样表现出了优势,且基本全线碾压了 CLIP(见绿色高亮,几乎点满)。

最后,对于 FLIP 模型的 scale up 也是一大看点,结果可圈可点。

可以看到,当增加 FLIP 的模型大小和数据规模时,FLIP 继续涨点,尤其增加模型大小时最为明显(最左)。不过单纯增加训练时长基本没用(最右)。

从下表我们还能看出,模型大小和数据规模一起增加,效果又上了一个新高度。证明大模型 + 大数据就是好使。

何恺明担任通讯作者

FLIP 一共 5 位作者。

3 位共同一作,都是 FAIR 研究工程师。其中:

Li Yanghao,本硕毕业于北京大学计算机科学专业,已发表多篇顶会;

Fan Haoqi,毕业于 CMU 机器人学院;

Hu Ronghang,本科毕业于清华,2020 年博士毕业于 UC 伯克利。

通讯作者有两位:

何恺明和他的同事 Christoph Feichtenhofer,拥有同等指导贡献。

One More Thing

值得一提的是,有细心的网友统计了近三年 CVPR 引用量最高的论文(截至 2022 年 11 月),分别是Moco(2020)、SimSiam(2021)、MAE(2022)。

而这三篇文章唯一的共同作者就是何恺明,其中两篇还是一作,且都是与自监督学习相关。据谷歌学术统计,目前他们的引用量分别为 5224、1374、834。

恺明大神还是一如既往地稳定发挥呀~

对于他们团队的最新力作,你怎么看?

比如,为什么对图像 patch 进行了随机 mask,反而让模型性能不降反升呢?

论文链接:

https://arxiv.org/abs/2212.00794

参考链接:

本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净 艳艳

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论