美国斯坦福大学团队及Arc研究所团队在Science发表了封面文章“Sequence modeling and design from molecular to genome scale with Evo”。研究团队介绍了多模态基因组基础模型Evo,可大规模注释和生成基因组序列。Evo架构利用了深度学习技术,能够高效地处理长序列。通过分析数百万个微生物基因组,Evo模型实现了对生命遗传密码从单个DNA碱基到整个基因组的全面了解。因此,该模型能够解码自然基因组,预测微小DNA变化如何影响生物体的适应性,实现了跨DNA、RNA和蛋白质的预测和设计任务,并在全基因组规模上生成DNA,包括合成CRISPR系统和IS200/IS605转座子。在理解和设计跨模态及多复杂度的生物学方面,Evo实现了重大进步。
文章发表在Science
图1. Evo是一个涵盖70亿参数的基因组基础模型。
为了高效地建立核苷酸分辨率的长序列模型,研究人员利用了基于深度信号处理的先进架构StripedHyena(图2B),将Evo扩展到70亿个参数,单核苷酸分辨率下上下文长度为131kb。Evo是由29层数据控制卷积算子(Hyena层)与3层(10%)配备旋转式位置编码(RoPE)的多头注意力机制(Multi-Head Attention)交错而成的混合模型。
图2. 在原核生命中预训练基因组基础模型。
研究人员通过计算最优协议比较了不同类别的架构,旨在评估计算最优前沿的结果。在四种架构中训练了300多个模型:Transformer++、Mamba、Hyena和StripedHyena,发现状态空间和深度信号处理架构在Hyena和StripedHyena的缩放率最高。在尺度分析(Scaling Analysis)期间,观察到StripedHyena在所有研究的模型大小和学习率下都可以进行稳定的训练。
当使用大肠杆菌蛋白质的深度突变扫描(DMS)数据集评估Evo预测突变对蛋白质功能影响的零样本能力时,发现它优于所有其他测试的核苷酸模型(图3B)。同样,研究人员还评估了Evo使用实验性ncRNA-DMS研究结果作为真实分数进行零样本ncRNA适应度预测的能力(图3C),发现Evo再次优于所有其他测试的核苷酸语言模型。
总之,Evo在没有明确序列注释的情况下通过接受长基因组序列的训练,展示了对组成性蛋白质编码序列、ncRNA序列和调控元件的理解。
图3. Evo对蛋白质、非编码RNA和调节DNA进行零样本功能预测。
CRISPR阵列的转录产生非编码CRISPR RNA(crRNA)分子,这些分子与Cas蛋白结合,产生序列特异性DNA靶向所需的功能性防御复合物(图4A)。当对CRISPR-Cas系统进行微调时,Evo可以连贯地生成在序列和结构上与天然存在的Cas系统相似的各种样本。设计新的Cas系统历来依赖于挖掘同源蛋白质的序列数据库,这种方式依赖自然进化来提供功能多样性。而Evo的生成建模提供了一种替代方法,可以在CRISPR技术的广泛应用中加以利用。
图4. CRISPR-Cas序列的微调使蛋白质-RNA复合物的生成设计成为可能。
除了分子复合物,Evo还可以学习多基因系统背后的模式。研究人员在10,720个IS605元件和219,867个IS200元件的自然序列上下文中对Evo进行了微调,并使用该模型生成了新的IS200/IS605元件(图5B)。结果发现,微调模型可以生成具有连贯蛋白质和RNA序列的不同IS605系统,并且Evo正在学习这些元件的重要特征,这些特征可以重新用于改进功能注释。这是蛋白质- RNA和蛋白质-DNA与语言模型共同设计的第一个例子。
图5. 对IS200/IS605序列的微调使转座生物系统的生成设计成为可能。
研究人员以8千预训练Evo模型作为基础模型,在13.1万个Token的序列上进行了第二阶段的预训练(图6A),并预先添加了物种级的特殊Token。结果表明,Evo可以预测许多细菌和噬菌体物种在整个生物体水平上的突变效应,而无需任何明确的基因组注释、特定任务的训练数据或功能标签。与蛋白质或密码子语言模型相比,Evo能够利用从整个基因组中获得的信息,了解核苷酸序列的微小变化如何影响整个生物体的适应性,在更广泛的基因组背景下理解基因功能。
图6. Evo对不同细菌和噬菌体基因组进行零样本基因重要性预测。
研究人员在不进行额外微调的情况下,在长序列长度下测试了Evo的序列生成质量。这样可以更好地理解模型学习的模式和细节程度,有助于确定模型的能力和局限性。结果显示,Evo可以生成长度超过1Mb可信基因组结构的DNA序列。Evo生成序列的平均编码密度几乎与自然基因组的序列编码密度一样高,并且远高于随机序列的编码密度(图7B)。经过可视化后,自然序列和生成序列都显示出类似的编码组织模式(图7C)。总之,Evo能以前所未有的规模生成包含合理高水平基因组组织的基因组序列,而无需进行密集的提示工程或微调。
图7. Evo生成具有密集编码结构的基因组级序列。
综上所述,基因组基础模型Evo捕捉了生物学的两个基本方面:中心法则的多模态性和进化的多尺度性。中心法则通过统一的编码和可预测的信息流整合了DNA、RNA和蛋白质,进化则统一了分子、通路、细胞和生物体所代表的跨尺度生物功能。Evo从数百万生物的全基因组序列中学习了这两个方面,从而实现了从分子到基因组尺度的预测和设计。Evo等大规模生物序列模型的进一步发展,与DNA合成和基因组工程的进步相结合,将促进了我们对生物学的理解和控制。
Evo研究团队。来源:Arc研究所
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!