Nature Methods | 结合DNA远端互作,DeepMind等团队发表高精度基因表达预测模型——Enformer
结合DNA远端互作预测基因表达和染色质状态的计算模型可以帮助更好地理解转录调控以及变异对转录调控的影响,补充基于人群的关联研究。但基于人群的关联研究通常局限于常见的变异,并且由于连锁不平衡,很难将因果关系与关联区分开。此外,人类遗传变异的实验验证非常复杂,并且仅限于某些细胞类型或组织,因此很难检测到所有变异。虽然结合DNA远端互作的计算模型在原则上可以克服这些问题,但其有限的准确性仍然无法满足研究需求。
深度卷积神经网络实现了结合人类和小鼠基因组互作信息预测基因表达。这些模型只能预测与转录起始点(TSS)的距离最多为20kb的序列元素,但许多调控元件,例如增强子、阻遏子和隔离元件,可以对距离在20kb以外的基因产生影响。研究人员认为,增强对远端元件的预测是提高预测准确性的一条途径。
近日,Calico Life Sciences公司团队联合DeepMind研究团队,开发了一种结合DNA远端互作进行基因表达和染色质状态预测的深度学习模型——Enformer,并在Nature Methods上发表了题为“Effective gene expression prediction from sequence by integrating long-range interactions”的研究文章。为提高结DNA远端互作预测基因表达的准确性,研究团队通过Enformer整合了来自基因组的远端互作信息,能够更准确的预测变异效应。此外,Enformer结合了直接从DNA序列预测增强子-启动子相互作用的方法,使得精细映射人类疾病成为可能。
文章发表在Nature Methods
据文章介绍,Enformer是一类深度学习模型,在自然语言处理方面取得了重要进展。目前已被应用于短DNA序列建模,可整合远至100 kb的远端元件。相比之下,Basenji2或ExPecto模型最多只能覆盖20kb元件。Enformer在预测人类蛋白质编码基因TSS处的Cap分析基因表达(CAGE)方面大大优于Basenji2,平均相关性为0.85(图1b)。基因表达预测也能更好地捕捉组织或细胞类型特异性(图1b)。同时,Enformer比ExPecto1的预测准确性更高。ExPecto1是一个经过训练的模型,用于预测通过RNA测序的跨基因和跨组织评估的基因表达水平。以上结果证实,Enformer提高了从DNA序列预测广泛表观遗传标记和基因表达的准确性。
图1. Enformer改进了被保留基因中的基因表达预测。来源:Nature Methods
为了更好地理解Enformer在进行预测时使用的序列元件,研究团队计算了两种不同的基因表达贡献分数和注意权重,发现它们与K27乙酰化的组蛋白H3(H3K27ac)相关,不仅突出了局部启动子区域,还突出了20kb 以外的远端增强子(图2a)。相比之下,对于超过20kb的序列,Basenji2的贡献分数为零,表明Enformer在对20kb以上的增强子进行预测时,基因表达贡献分数可用于确定相关增强子的优先级。
研究团队还比较了在K562细胞系上进行的两项大规模CRISPRi研究中所有测试增强子-基因对的贡献分数。结果发现,Enformer贡献分数优先验增强子-基因对,准确性高于Basenji2(图2b)。Enformer的性能可与ABC评分相媲美,在某些情况下甚至优于ABC评分。ABC评分是专门针对增强子优先级提出的最先进方法。
隔离元件将两个拓扑结合域(TAD)分开,并最小化了两者之间的增强子-启动子交互。研究人员检查了以TAD边界为中心的序列的注意权重,发现Enformer更多地关注TAD边界,而不是随机位置(图2c),表明该模型不仅可用于确定组织特异性增强子和启动子的作用,还可用于确定隔离元件及其在抑制基因组间信息流中的作用。
图2. Enformer关注细胞类型特异性增强子,确定增强子优先级。来源:Nature Methods
该研究的一个目标是预测遗传变异对细胞类型特异性基因表达的影响,通过全基因组关联研究(GWAS)对数千个与目标表型相关的非编码基因进行精细定位。一个成功的模型能够产生基因表达数量性状位点(eQTL)研究的结果,无需检测数百到数千个单独的基因表达谱。因此,研究团队探讨了GTEx项目在数十个人体组织中发现的eQTL,以验证该模型预测性能。相对于Basenji2,Enformer预测了GTEx组织最大的组织相似性(图3b,c)。因此,对于具有类似细胞类型组成的样本,Enformer的预测更准确。
为了评估Enformer预测结果对识别因果变异的效用,研究团队为每个组织定义了一个分类任务,以区分可能的因果变异和虚假eQTL。相对于Basenji2,Enformer为48个GTEx组织中的47个组织提供了更精确的分类(图3d)。
图3. Enformer改进了eQTL数据的变异效应预测。来源:Nature Methods
最后,研究团队使用一个大规模平行报告分析(MPRA)数据集评估了Enformer在变异效应预测中的表现。他们观察到,以Enformer预测为特征的套索回归在所有基因座上具有最佳的平均相关性(图4a)。此外,使用Enformer预测可直接作为分数,无需训练,表现与套索训练模型相当,也优于包括结合DNA互作的预测因子deltaSVM等其他模型。Enformer忠实地捕捉了LDLR位点四个转录因子结合位点中的两个位点的效应(图4c)。相比之下,deltaSVM仅成功预测了一个结合位点。
图4. Enformer改进了饱和突变实验测量的非编码变异效应预测。来源:Nature Methods
与现有的计算模型相比,Enformer整合了来自基因组的远程(大于100kb)交互信息,仅利用DNA序列作为输入,具有不局限于保守增强子、预测激活/抑制突变以及遗传变异对细胞类型特异性基因表达的影响的优势。这些进步和优势将促进人们对基因调控的理解,并促进开发诊断遗传性疾病的工具。
Avsec, Ž., Agarwal, V., Visentin, D. et al. Effective gene expression prediction from sequence by integrating long-range interactions. Nat Methods 18, 1196–1203 (2021). https://www.nature.com/articles/s41592-021-01252-x
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!