能抗衡 AlphaFold 3 的生命科学大模型终于出现了。初创公司 Evolutionary Scale AI 发布了他们最新的 98B 参数蛋白质语言模型 ESM3。不仅支持序列、结构、功能的 all-to-all 推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界 5 亿年的进化。
继 AlphaFold 3 更新后,我们又看到了一个生命科学领域的大模型 ESM3。
模型开发团队来自于名为 Evolutionary Scale AI 的初创公司,团队负责人 Alex Rives 在推特上官宣了模型发布的消息。
这个令人振奋的消息也得到了 Yann LeCun 的转发,他表示,你们这个公司有点「闷声发大财」的意思。
相比 AlphaFold 系列,ESM3 有什么竞争优势?
首先就是 Meta 团队轻车熟路的 —— 开源。
虽然模型 API 仍处于内测阶段,需要申请试用资格,但模型代码已经放到了 GitHub 上。而且公司还会与 AWS 和英伟达云计算平台合作,方便开发者使用和部署。
但比较遗憾的是,目前在 HuggingFace 仓库中还没有公开模型权重。英伟达官方博客显示,ESM3 将在 Nvidia BieNeMo 平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。
此外,ESM3 与不同于模拟多种生物分子的 AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。
更让人耳目一新的是,ESM3 在自然界中 27.8 亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。
从这个角度来看,ESM 的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟 5 亿年进化」的标语。
或许你已经注意到了,ESM 这个名字和 Meta 之前的蛋白质模型 ESMFold 非常类似。
这并不是有意擦边。事实上,Evolutionary Scale 这家初创公司就是 Meta-FAIR 蛋白质小组的前成员创办的,公司的首席科学家 Alex Rives 正是这个已解散团队的前负责人。
去年 8 月,在 Meta 的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。
但 Rives 并没有被 Meta 的这种举动吓倒,而是决定自立门户,他们目前已经筹集了 1.42 亿美元的种子资金。
那么就来仔细看看,这次的 ESM3 具体有哪些新内容?
生命科学并不像我们想象的那般神秘莫测、不可捉摸。
蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。
生物学,就是一个厚厚的密码本。
只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。
如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。
ESM3 就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。
过去五年中 LLM 的突飞猛进,也让 ESM 团队发现了 Scaling Law 的威力,他们发现,同样的模式也适用于生物学。
随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。
因此,ESM3 的开发思路也与 Scaling Law 一脉相承,其规模比上一代 ESM 大大扩展,数据量提高了 60 倍,训练计算量提高了 25 倍,并且是具有原生多模态的生成模型。
ESM3 的训练过程囊括了地球自然环境的多样性 —— 数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。
HuggingFace 上的模型卡显示,训练集中天然蛋白质数量达到 27.8 亿,并通过合成数据增强到 31.5 亿个序列、2.36 个结构以及 5.39 亿个带有功能注释的蛋白质,token 总数达到 7710B。
模型训练参数总量达到 98B,使用了超过 1024FLOPS 的算力。团队似乎与英伟达紧密合作,训练使用了 Andromeda 集群,是当今吞吐量最高的 GPU 集群之一,部署了最先进的 H100 GPU 和 Quantum-2 InfiniBand 网络。
他们表示「相信 ESM3 的计算总量是有史以来生物模型之最」。
处理文本的语言模型一般以 token 作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。
为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3 使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。
不同于 GPT 等语言模型,ESM3 的训练目标继承于掩码语言模型(masked language modeling objective)。
每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。
由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此 ESM3 实现了「全对全」预测或生成(all to all)。
也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。
比如,可以提示模型结合结构、序列和功能,提出 PET 酶活性位点的潜在支架结构。PET 是一种常用的塑料,如果 PET 酶设计成功,就能用于高效分解塑料废物。
Evolutionary Scale 的联合创始人兼兼工程副总裁 Tom Sercu 表示,在内部测试中,ESM 在应对各种复杂提示时表现出了令人印象深刻的创造力。
「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3 能够帮助科学家加速工作,开辟新的可能性 —— 我们期待看到它在未来对生命科学研究的贡献。」
当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。
正如 LLM 在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3 也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。
比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。
这对于设计功能性蛋白质至关重要,而 ESM3 解决这类复杂生成任务的能力可以随着规模增加逐渐提高。
不仅如此,在训练完成后,ESM3 的能力还有进一步提升的空间,其机制类似于 LLM 常用的 RLHF 方法。
但区别在于,ESM3 并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让 ESM3 的生成与生物学结果保持对齐。
在发表的论文中,ESM3 团队详细介绍了他们在模型上观察到的「模拟进化」功能。
绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。
但 GFP 不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的 GFP 可以吸收蓝光并发出绿光。
由于这种特性,GFP 能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP 的发现也因此获得了诺贝尔奖。
GFP 的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。
这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。
为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达 20% 的变体,但功能性 GFP 的主要来源依旧是自然界而非蛋白质工程。
想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间 ——GFP 所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。
这个棘手的问题或许能在 ESM3 这里得到解决。
将天然 GFP 核心结构中几个位点的信息作为提示,并使用 CoT 技巧,ESM3 成功生成了新型 GFP 的候选者。
这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字 ——20229 x 4096229 ,比可见宇宙中所有的原子数加起来还要多。
在首次实验中,团队测试了 ESM3 生成的 96 个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。
在另一组 96 个候选样本中,发现了几种亮度与天然 GFP 相似的蛋白质,其中一种亮度最高的蛋白质被命名为 esmGFP,与最接近的天然荧光蛋白相比有 96 个突变(在 229 个氨基酸组成的序列中,有 58% 的相似部分)。
与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。
但为了让 ESM3 解决其预测下一个掩码 token 的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。
从这个意义上说,ESM3 生成与天然蛋白十分相似的 esmGFP 的过程,可以被视为一种进化模拟器。
对 esmGFP 进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。
因此,研究团队使用进化生物学的方法,把 esmGFP 当成自然界新发现的蛋白质进行分析。他们估计,esmGFP 等效于进化模拟器执行的超过 5 亿年的自然进化。
自成立以来,ESM 项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在 GitHub 和 HuggingFace 上找到团队在几年前发布的代码和模型权重。
看到 ESM 模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:
- Hie 等人使用 ESM-1v 和 ESM-1b 来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
- BioNTech 和 InstaDeep 微调了一个 ESM 语言模型,用于检测 COVID 刺突蛋白中的变异,成功地在 WHO 指定之前标记了所有 16 种关注变异。
- Brandes 等人使用 ESM-1b 来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。
- Marsiglia 等人使用 ESM-1v 来设计新的抗 CRISPR 蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。
- Shanker 等人使用 ESM-IF1 引导多样蛋白的进化,包括实验室验证的对 SARS-CoV-2 高效抗体。
- Yu 等人微调了 ESM-1b 来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。
- Rosen 等人使用 ESM2 嵌入来构建单细胞基础模型中的基因表示。
- Høie 等人微调了 ESM-IF1 在抗体结构上的表现,在 CDR 区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。
而这些,只是建立在 ESM 平台上的惊人工作的一小部分!
如今,团队正式宣布,将发布一个 ESM3 1.4B 参数版本的权重和代码,以便科学家和开发人员能够基于 ESM3 的理念和架构进行构建。
参考资料:
https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/
https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
https://www.evolutionaryscale.ai/blog/esm3-release
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。