首页科学探索科技前沿

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

新智元
2023-06-15 12:40

原文标题：《Transformer 全新里程碑！诞生 6 年，开山之作被引近 8 万，没夺下 NeurIPS 最佳论文，却彻底改变 AI 界》

Transformer，6 岁了！2017 年，Attention is All You Need 奠基之作问世，至今被引数近 8 万。这个王者架构还能继续打多久？

2017 年 6 月 12 日，Attention is All You Need，一声炸雷，大名鼎鼎的 Transformer 横空出世。

它的出现，不仅让 NLP 变了天，成为自然语言领域的主流模型，还成功跨界 CV，给 AI 界带来了意外的惊喜。

到今天为止，Transformer 诞生 6 周年。而这篇论文被引数高达 77926。

英伟达科学家 Jim Fan 对这篇盖世之作做了深度总结：

1. Transformer 并没有发明注意力，而是将其推向极致。

第一篇注意力论文是在 3 年前（2014 年）发表的。

这篇论文来自 Yoshua Bengio 的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN + 上下文向量」（即注意力）的组合。

或许很多人都没有听说过这篇论文，但它是 NLP 中最伟大的里程碑之一，已经被引用了 29K 次（相比之下，Transformer 为 77K）。

2. Transformer 和最初的注意力论文，都没有谈到通用序列计算机。

相反，两者都为了解决一个狭隘而具体的问题：机器翻译。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻译。

3. Transformer 发表在 2017 年的 NeurIPS 上，这是全球顶级的人工智能会议之一。然而，它甚至没有获得 Oral 演讲，更不用说获奖了。

那一年的 NeurIPS 上有 3 篇最佳论文。截止到今天，它们加起来有 529 次引用。

Transformer 这一经典之作却在 NeurIPS 2017 没有引起很多人的关注。

对此，Jim Fan 认为，在一项出色的工作变得有影响力之前，很难让人们认可它。

我不会责怪 NeurIPS 委员会 —— 获奖论文仍然是一流的，但影响力没有那么大。一个反例是 ResNet。

何凯明等人在 CVPR 2016 年获得了最佳论文。这篇论文当之无愧，得到了正确的认可。

2017 年，该领域聪明的人中，很少有人能够预测到今天 LLM 革命性的规模。就像 20 世纪 80 年代一样，很少有人能预见自 2012 年以来深度学习的海啸。

OpenAI 科学家 Andrej Karpathy 对 Jim Fan 第 2 点总结颇感兴趣，并表示，

介绍注意力的论文（由 @DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的论文受到的关注要少 1000 倍。而且从历史上看，这两篇论文都非常普通，但有趣的是恰好都是为机器翻译而开发的。

你只需要注意力！

Transformer 诞生之前，AI 圈的人在自然语言处理中大都采用基于 RNN（循环神经网络）的编码器-解码器（Encoder-Decoder）结构来完成序列翻译。

然而，RNN 及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性，无法实现并行。

Transformer 的现世可谓是如日中天，让许多研究人员开启了追星之旅。

2017 年，8 位谷歌研究人员发表了 Attention is All You Need。可以说，这篇论文是 NLP 领域的颠覆者。

论文地址：https://arxiv.org/ pdf / 1706.03762.pdf

它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。

甚至，有人发问「有了 Transformer 框架后是不是 RNN 完全可以废弃了？」

JimFan 所称 Transformer 当初的设计是为了解决翻译问题，毋庸置疑。

谷歌当年发的博客，便阐述了 Transformer 是一种语言理解的新型神经网络架构。

文章地址：https://ai.googleblog.com/ 2017/08 / transformer-novel-neural-network.html

具体来讲，Transformer 由四部分组成：输入、编码器、解码器，以及输出。

输入字符首先通过 Embedding 转为向量，并加入位置编码（Positional Encoding）来添加位置信息。

然后，通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征，最后输出结果。

如下图所示，谷歌给出了 Transformer 如何用在机器翻译中的例子。

机器翻译的神经网络通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着 Transformer 为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019 年，谷歌还专门为其申请了专利。

自此，在自然语言处理中，Transformer 逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的 GPT（Generative Pre-trained Transformer），都起源于这篇 17 年的论文。

然而，Transformer 燃爆的不仅是 NLP 学术圈。

万能 Transformer：从 NLP 跨到 CV

2017 年的谷歌博客中，研究人员曾对 Transformer 未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

没错，在 NLP 领域掀起巨浪后，Transformer 又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼 Transformer 又攻下一城。

自 2012 年以来，CNN 已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用 Transformer 来完成 CV 任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020 年 10 月，谷歌提出的 Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用 Transformer 对图像进行分类。

值得一提的是，ViT 性能表现出色，在计算资源减少 4 倍的情况下，超过最先进的 CNN。

紧接着，2021 年，OpenAI 连仍两颗炸弹，发布了基于 Transformer 打造的 DALL-E，还有 CLIP。

这两个模型借助 Transformer 实现了很好的效果。DALL-E 能够根据文字输出稳定的图像。而 CLIP 能够实现图像与文本的分类。

再到后来的 DALL-E 进化版 DALL-E 2，还有 Stable Diffusion，同样基于 Transformer 架构，再次颠覆了 AI 绘画。

以下，便是基于 Transformer 诞生的模型的整条时间线。

由此可见，Transformer 是有多么地能打。

2021 年，当时就连谷歌的研究人员 David Ha 表示，Transformers 是新的 LSTMs。

而他曾在 Transformer 诞生之前，还称 LSTM 就像神经网络中的 AK47。无论我们如何努力用新的东西来取代它，它仍然会在 50 年后被使用。

Transformer 仅用 4 年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6 年过去了，曾经联手打造出谷歌最强 Transformer 的「变形金刚们」怎么样了？

Jakob Uszkoreit 被公认是 Transformer 架构的主要贡献者。

他在 2021 年中离开了 Google，并共同创立了 Inceptive Labs，致力于使用神经网络设计 mRNA。

到目前为止，他们已经筹集了 2000 万美元，并且团队规模也超过了 20 人。

Ashish Vaswani 在 2021 年底离开 Google，创立了 AdeptAILabs。

可以说，AdeptAILabs 正处在高速发展的阶段。

目前，公司不仅已经筹集了 4.15 亿美元，而且也估值超过了 10 亿美元。

此外，团队规模也刚刚超过了 40 人。

然而，Ashish 却在几个月前离开了 Adept。

在 Transformers 论文中，Niki Parmar 是唯一的女性作者。

她在 2021 年底离开 Google，并和刚刚提到的 Ashish Vaswani 一起，创立了 AdeptAILabs。

不过，Niki 在几个月前也离开了 Adept。

Noam Shazeer 在 Google 工作了 20 年后，于 2021 年底离开了 Google。

随后，他便立刻与自己的朋友 Dan Abitbol 一起，创立了 Character AI。

虽然公司只有大约 20 名员工，但效率却相当之高。

目前，他们已经筹集了近 2 亿美元，并即将跻身独角兽的行列。

Aidan Gomez 在 2019 年 9 月离开了 Google Brain，创立了 CohereAI。

经过 3 年的稳定发展后，公司依然正在扩大规模 ——Cohere 的员工数量最近超过了 180 名。

与此同时，公司筹集到的资金也即将突破 4 亿美元大关。

Lukasz Kaiser 是 TensorFlow 的共同作者人之一，他在 2021 年中离开了 Google，加入了 OpenAI。

Illia Polosukhin 在 2017 年 2 月离开了 Google，于 2017 年 6 月创立了 NEAR Protocol。

目前，NEAR 估值约为 20 亿美元。

与此同时，公司已经筹集了约 3.75 亿美元，并进行了大量的二次融资。

现在，只有 Llion Jones 还在谷歌工作。

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于 —— 起标题。」

网友热评

走到现在，回看 Transformer，还是会引发不少网友的思考。

AI 中的开创性论文。

马库斯表示，这有点像波特兰开拓者队对迈克尔・乔丹的放弃。

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了 NLP。

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

参考资料：

https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

有价值还可以无价值

相关文章

Meta 发布 Megabyte AI 模型抗衡 Transformer：解决后者已知问题、速度提升 4 成

Transformer 开山论文惊天「翻车」，图与代码不一致

扩散模型和 Transformer 梦幻联动，一举拿下新 SOTA，MILA 博士：U-Net 已死

查看更多

全部评论

软媒旗下人气应用

最会买

IT之家

要知