今天将成为人类生物学历史上具有重大意义的一天!
智东西 7 月 23 日消息,今日,人工智能研究实验室 DeepMind 与欧洲生物信息学研究所 EMBL-EBI(European Bioinformatics Institute)合作,推出了 AlphaFold 蛋白质结构数据库,该数据库提供了迄今为止人类蛋白质组最完整、最准确的图像,是人类积累的高精度人类蛋白质结构知识的两倍多。
除了人类蛋白质组(人类基因组表达的所有蛋白质约 2 万种)之外,他们还将提供其他 20 种具有生物学意义的生物蛋白质组的开放访问,总计超过 35 万种蛋白质结构,包括从果蝇到小鼠等动物,以及从大肠杆菌到酵母等细菌。
发布第一批数据后,DeepMind 计划继续增加蛋白质库,几乎覆盖所有科学已知的已测序蛋白质,共超过 1 亿种结构,该库将由 EMBL 维护。在 EMBL 总干事 Edith Heard 看来:“这些数据集将改变我们对生命运作方式的理解。”
“我认为这是 DeepMind 整个 10 年多生命周期的顶峰。”DeepMind 联合创始人兼 CEO Demis Hassabis 谈道,从成立之初,DeepMind 就打算将 AI 方面取得的突破在围棋、雅达利等游戏上进行测试,并将其应用于现实世界的问题,以加速科学突破并造福人类。
Demis Hassabis 称,这些数据对科学和商业研究人员来说都将永久免费开放。“任何人都可以将它用于任何事情,他们只需要归功于参与引用的人。”他说。
▲ 长期以来,人源中介体复合物(Mediator Complex)一直是结构生物学家最具挑战性的多蛋白系统之一。(图源:Nature)
21 世纪是生物的世纪,更是计算机的世纪。
早在去年 12 月,DeepMind 就推出了 AlphaFold 2 系统,可通过 AI 软件对蛋白质结构进行准确预测,该解决方案被认为能解决困扰科学家们 50 年的蛋白质折叠(protein folding)问题。
直到上周,DeepMind 还发表了相关科学论文和源代码,以解释如何创建这个高度创新的系统,允许其他人通过 AlphaFold 来完成相关研究工作。
AlphaFold 系统的诞生,证明了 AI 可以在几分钟内准确预测蛋白质的 3D 结构,精确到原子精度。而 AlphaFold 蛋白质结构数据库的开放,也将促进世界各地的科学家们加速对人类蛋白质的研究。
那么,何为蛋白质折叠问题?
简单来说,许多生物过程都是围绕蛋白质来进行的,而蛋白质是由氨基酸序列组成的大型复杂分子,其真正的作用取决于自身独特的 3D 结构,也就是蛋白质中氨基酸序列的折叠方式。
了解蛋白质结构能增进人类对生命组成部分的理解,从而推动科学家们在各个领域的研究。
例如,英国朴茨茅斯大学(CEI)正在利用 AlphaFold 来设计一种新型酶,以快速分解污染严重的一次性塑料等废物;美国科罗拉多大学博尔德分校通过 AlphaFold 预测,来研究抗生素耐药性的前景;美国加利福尼亚大学旧金山分校则使用 AlphaFold 来研究新型冠状病毒的工作原理……
▲ AlphaFold 预测的蛋白质结构的两个例子(蓝色)与实验结果(绿色)的比较(图源:DeepMind)
这些都是科学家们利用科技带来的大量生物数据信息,一步步转换为未来人类的进步。
但科学家们指出,这些信息转换到现实世界并产生结果的过程,仍需要大量时间。“我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响。”科罗拉多大学生物化学系教授 Marcelo C. Sousa 说。
需要注意的是,AlphaFold 软件生成的是蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下,科学家还需要进一步的工作来验证结构。
DeepMind 对此表示,他们花了许多时间在 AlphaFold 软件中构建准确度指标,让它能对每个预测的可信度进行排名。
不过,蛋白质结构的预测仍对科学研究带来了巨大帮助。以往科学家们确定蛋白质结构的实验过程既耗时又昂贵,还要依赖大量反复试验,而蛋白质结构预测即便置信度低,也可以为科学家指明正确的研究方向,为他们节省多年的工作。
英国格拉斯哥大学(University of Glasgow)结构生物学教授 Helen Walden 认为,DeepMind 的数据将“显著缓解研究瓶颈”,但“进行生物化学和生物学评估的费力、耗费资源的工作”将继续存在,例如药物功能研究。
Sousa 也提到,他曾在工作中使用过 AlphaFold 的数据,“科学家们能快速地感受到它带来的影响。”他说,在他们与 DeepMind 的合作中,他们有一个包含蛋白质样本的数据集,但 10 年来都还没开发出一个合适的模型,直到 DeepMind 同意为他们提供一个结构,在 15 分钟内就解决了这个问题。
AlphaFold 只需 15 分钟就能解决的问题,为何困扰了这些科学家 10 年?蛋白质折叠问题究竟难在哪?
如我们前面所说,蛋白质由氨基酸链构成,人体中共含有 20 种不同的氨基酸,任何一个蛋白质都可以由数百个氨基酸组成,且每个氨基酸都有不同的折叠和扭曲结构。
这些都意味着,哪怕是一个常见的蛋白质分子,它的最终结构都有许多种可能构型。一个估计是,典型的蛋白质可以以 10^300 种方式折叠。不用数了,就是“1”后面跟着 300 个“0”的可能性。
不过由于蛋白质的样本太小,科学家们难以用显微镜检查,不得不使用成本昂贵且复杂的方法来间接确定蛋白质结构,比如核磁共振和 X 射线晶体学(X-ray crystallography)。
但实际上,简单地通过氨基酸序列来确定蛋白质结构的构想,在理论上一直是难以实现的。因此,分析蛋白质结构也成为了人们攻克生物学领域的一大难关。
直到近年来,人们发现可以利用 AI 的方法来分析蛋白质结构。借助这些技术,AI 系统可以通过在已知蛋白质结构的数据集上进行训练,并最终利用这些信息来预测蛋白质结构。
多年来,很多团队都参与到这项 AI 研究中,其中 DeepMind 基于深厚的 AI 人才库和大量计算资源基础,一直走在该领域的前沿。
去年,DeepMind 在一项名为 CASP 的国际蛋白质折叠比赛中脱颖而出,其 AlphaFold 软件对蛋白质结构的预测结果非常准确。对此,CASP 联合创始人之一的计算生物学家 John Moult 说:“在某种意义上,蛋白质折叠的难题已经有了解决方案。”
▲ DeepMind 的 AlphaFold 软件显着提高了计算蛋白质折叠的准确性(图源:DeepMind)
自去年 CASP 竞赛以来,AlphaFold 系统也实现了升级,现在它分析蛋白质结构的速度已提高了 16 倍。“我们可以在几分钟内折叠一个普通蛋白质,多数情况下只要几秒钟。”Hassabis 谈道。
英国雷丁大学教授 Liam McGuffin 曾开发出一些蛋白质折叠软件,他肯定了 AlphaFold 的技术,但也指出,AlphaFold 的成功主要归功于科学家们数十年的先前研究和公开数据。
“DeepMind 拥有大量研究资源来保持数据库的更新,他们比任何一个学术团体都更有能力做到这一点。”McGuffin 认为,尽管科学家们最终也会走到这一步,但速度会更慢,因为他们没有足够的资源。
尽管 DeepMind 每年都处于大量亏损的状态,但这次开放蛋白质结构数据库是免费的。
实际上,DeepMind 归属于 Google 母公司 Alphabet,该公司一直在商业医疗保健领域投入大量资源。还有许多报道称,DeepMind 与 Alphabet 在研究自主性和商业可行性等问题上存在分歧。
不过 Hassabis 谈道,公司一直在计划免费提供这些信息,这样做是对 DeepMind 创始精神的体现。“我们在被收购时与 Alphabet 达成的协议是,DeepMind 主要的研究目的是推进 AGI(通用人工智能)和 AI 技术的发展,然后利用它们来攻克科学领域的难题。”他说。
他认为,Alphabet 有许多部门都专注于盈利,但 DeepMind 对研究的关注能够“为科学界带来各种各样的好处,包括声望和信誉,从而通过多种方法实现价值。”
Hassabis 还强调,虽然 DeepMind 的主要研究目标是一些基础领域,但其技术已广泛应用于谷歌的其他业务中。“几乎你使用的任何谷歌产品,其中一部分技术都有我们的参与。”他透露。
与此同时,Hassabis 预测 AlphaFold 将成为未来的标志,因为它展示了 AI 在处理人类生物学等复杂问题上的巨大潜力。
“我认为我们正处于一个非常激动人心的时刻。”Hassabis 提到:“在接下来的十年中,我们和 AI 领域的其他人都希望能取得突破性进展,真正加速解决我们在地球上面临的真正重大问题。”
对于接下来的计划,EMBL-EBI 的结构生物信息学 Sameer Velankar 谈道,到今年年底,本周提交的大约 36.5 万个蛋白质结构预测将增加至 1.3 亿个,几乎是所有已知蛋白质的一半。
此外,随着 DeepMind 的继续投资,以及未来对 AlphaFold 的改进,系统和数据库也将定期更新。
对 DeepMind 而言,从 AlphaFold 系统的更新迭代到蛋白质结构数据库的开放,研究团队在五年里不仅必须要创造性地克服许多技术难题,还要面临许多复杂算法的创新挑战,这些都是推动人工智能和生物学领域发展的必经之路。
不能忽视的是,DeepMind 乃至未来研究团队的创新,都是建立在先前几代科学家的研究发现上。从蛋白质成像和晶体学的早起先驱,到数以千计的预测专家和结构生物学家,他们一路披荆斩棘,花了多年时间对蛋白质展开深入研究。
我们也期待,站在巨人的肩膀上的他们,未来能开辟更多创新的科学研究途径,推动更多领域的发展和进步。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。