.hd-box .hd-fr

AlphaFold2 成功秘诀:注意力机制取代卷积网络,预测准确性提升超 30%

2021-07-21 14:30量子位(明敏)9评

最近,DeepMind 开源 AlphaFold2,让学术圈再一次沸腾了。

这意味着,对于普通研究人员而言曾需要花几年时间才能破解的蛋白质结构,现在用 AlphaFold2 几小时就能算出来了!

那么,如此厉害的 AlphaFold2 究竟如何做到的呢?

DeepMind 团队已经将它的详细信息在《Nature》上公开发表。

现在,就让我们来看看 AlphaFold2 的魔法是怎么实现的吧。

卷积消失了,Attention 来了

论文中,研究人员强调 AlphaFold2 是一个完全不同于 AlphaFold 的新模型。

的确,它们使用的模型框架都不一样,这也是 AlphaFold2 准确性能够突飞猛进的主要原因。

此前AlphaFold 中所有的卷积神经网络,现在都被替换成了 Attention

为什么要这样做呢?

我们首先要了解一下 AlphaFold 的工作原理:

它主要是通过预测蛋白质中每对氨基酸之间的距离分布,以及连接它们的化学键之间的角度,然后将所有氨基酸对的测量结果汇总成 2D 的距离直方图。

然后让卷积神经网络对这些图片进行学习,从而构建出蛋白质的 3D 结构。

▲ AlphaFold 主要架构

但这是一种从局部开始进行预测的方式,很有可能会忽略蛋白质结构信息的长距离依赖性。

而 Attention 的特点刚好可以弥补这一缺陷,它是一种模仿人类注意力的网络架构,可以同时聚焦多个细节部分。

这样可以使得框架预测的结果更加全面、准确。

在 CASP13 中,AlphaFold 预测的准确性还只有不到 60 分。

但是在 CASP14 中 AlphaFold2 就将准确性直接拔高到了 92.4/100。

图网络 + Attention

具体来看,AlphaFold2 主要利用多序列比对(MSA),把蛋白质的结构和生物信息整合到了深度学习算法中。

它主要包括两个部分:神经网络 EvoFormer 和结构模块(Structure module)。

在 EvoFormer 中,主要是将图网络 (Graph networks)和多序列比对 (MSA)结合完成结构预测。

图网络可以很好表示事物之间的相关性,在这里,它可以将蛋白质的相关信息构建出一个图表,以此表示不同氨基酸之间的距离。

研究人员用 Attention 机制构建出一个特殊的“三重自注意力机制(Triangular self-attention)”,来处理计算氨基酸之间的关系图。

▲ 三重自注意力机制(Triangular self-attention)

然后,他们将这一步得到的信息与多序列比对结合。

多序列比对主要是使相同残基的位点位于同一列,暴露出不同序列之间的相似部分,从而推断出不同蛋白质在结构和功能上的相似关系。

计算出的氨基酸关系与 MSA 进行信息交换,能直接推理出空间和进化关系的配对表征。

预测所有原子的 3D 结构

架构的第二部分是一个结构模块 (Structure Module),它的主要工作是将 EvoFormer 得到的信息转换为蛋白质的 3D 结构。

▲ 结构模块(Structure module)

在这里,研究人员同样使用了 Attention 机制,它可以单独计算蛋白质的各个部分,称为“不变点注意力(invariant point attention)”机制。

它以某个原子为原点,构建出一个 3D 参考场,根据预测信息进行旋转和平移,得到一个结构框架。

▲ 不变点注意力(invariant point attention)

然后 Attention 机制会对所有原子都进行预测,最终汇总得出一个高度准确的蛋白质结构。

此外,研究人员还强调 AlphaFold2 是一个“端到端”的神经网络。

他们会反复把最终损失应用于输出结果,然后再对输出结果进行递归,不断逼近正确结果。

这样做既能减少额外的训练,还能大幅提高预测结构的准确性。

为破解蛋白质折叠谜题带来希望

Alphafold2 的出现,能更好地预判蛋白质与分子结合的概率,从而极大地加速新药研发的效率。

此次 Alphafold2 开源,将进一步推动科学界前进。

据了解,目前 DeepMind 已经与瑞士的一些研究团队合作,通过预测蛋白质结构开展药物方面的研究。

事实上,研究 Alphafold2 预测程序本身,也为探索蛋白质结构折叠原理带来了希望。

芝加哥大学的计算生物学家 Jinbo Xu 就表示:

这些工具的开源,意味着科学界能够在此基础上开发出更加强大的软件。

论文地址:

https://www.nature.com/articles/s41586-021-03819-2_reference.pdf

补充材料:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf*

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论