近日,卡耐基梅隆大学计算机学院计算生物学系Lane Fellow邵明富和计算生物学系副教授Carl Kingsford合作开发出一种更精确的转录本组装方法,命名为Scallop。相关研究已经发表在Nature Biotechnology,论文题为“Accurate assembly of transcripts through phase-preserving graph decomposition”。组装软件Scallop已经开源发布在GitHub上。
据了解,Scallop可用于重建细胞内所有转录本的全长核苷酸序列,能够帮助科学家建立一个更完整的转录组,并有助于更好地理解基因表达调控机制。转录组研究能够从整体水平上获取基因结构以及基因功能,并揭示特定生物学过程以及疾病发生过程中的分子机理。因此,Scallop有望在基础研究、临床诊断和药物研发等领域获得广泛应用。
CMU计算生物学系Lane Fellow邵明富
CMU计算生物学系副教授Carl Kingsford
目前,高通量RNA测序技术(RNA-Seq)已经发展成熟,可以用来识别新基因和剪接体,精确测量表达丰度,以及进行下游表达差异及功能分析。RNA-seq可以从细胞里的已经表达的转录本中取样并产生测序reads,其核心的计算问题是如何组装它们,也就是如何根据这些reads来恢复全长的转录本序列。目前,转录本组装仍然是悬而未决的难解问题,诸多因素例如旁系同源、读取覆盖度的不均匀、剪接变异体的多样性、搜索空间巨大等,都使得转录本组装非常有挑战性。虽然现在已经有很多组装方法,但是他们的精度还远未达到要求,特别是对低表达的转录本和多外显子转录本的组装精确度仍然很低。
目前,基于参考序列的组装方法是最准确的转录本组装方法。这类方法例如Cufflinks、Scripture、IsoLasso、StringTie、TransComb等都是先将reads与参考基因组进行联配,然后基于联配信息为每个基因位点构建可变剪接图,其中图的顶点对应外显子,图的边对应剪接,外显子和剪接的覆盖度编码为顶点和边的权重。由可变剪接图出发,组装算法会将其分解为一组路径,其中每条路径就表示一条转录本。
Scallop是一种基于参考序列的转录本组装方法。Scallop的核心是一个全新的把可变剪接图分解为路径的算法。该算法充分利用了包含在reads中的能跨越多个外显子的长程信息。Scallop能够在理论上证明,所有长程路径都能够被最终的路径所覆盖。另外,该算法还同时最小化覆盖度误差和路径数目,这使得Scallop能够同时获得更高的灵敏度和更高的特异性。
Scallop方法概览
为验证Scallop的精确度,研究人员进行了大量的测试并和现有的方法StringTie和TransComb进行了充分的比较。试验结果表明,在多外显子转录本的组装上,Scallop 的精确度比StringTie和TransComb分别高出34.5%和36.3%。并且Scallop已被证明更擅长组装低表达转录本:相比于StringTie和TransComb,Scallop的精确度分别提高了67.5%和52.3%。
Scallop和StringTie、TransComb的精确度比较
相关链接:
文章原文:https://www.nature.com/articles/nbt.4020
Nature Sharing Initiative链接(无需订阅):http://rdcu.be/yqNM
Scallop软件:https://github.com/Kingsford-Group/scallop
邵明富主页:https://www.cs.cmu.edu/~mingfus
Carl Kingsford主页:http://kingsfordlab.cbd.cmu.edu/
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!