基于短读长RNA-seq数据的de novo转录组组装优化的对比研究

随着二代测序技术的快速发展,高通量RNA测序技术在转录组研究中展现了经济高效的巨大潜力。转录本的de novo组装是不基于参考序列的转录组分析中的重要方法。但目前仍不清楚不同变量是如何影响组装结果的,对于如何根据RNA-Seq数据属性选择合适的软件工具和分析策略以实现最优解也没有达成共识。

上海生物信息技术研究中心 郝沛研究员合作中国科学院上海生命科学院植物生理生态研究所李轩研究员带领研究人员分析了包括k-mer值、基因组复杂度、覆盖深度和读取方向在内的许多重要因素来展示转录组组装中不同程序的功效。本文测试了7种程序条件,四种单k-mer组长软件(SK:SOAP denovo, AByss ,Oases and Trinity)和三种多k-mer方法(MK:SOAPdenovo-MK,trans-AByssOases-MK)。其中k-mer值低(高)有利于重建低(高)表达的转录组,MK策略在全表达范围内都有较好的功效。SK工具和Trinity面对不同条件都有很好的输出结果但也花费了最长的运行时间,而SOAPdenovo虽然运行时间最短却无法有效地重建全长CDSOases成本最高,而ABySS则很好地平衡了成本与组装质量。研究人员比较了公共转录组组装工具的功效,分析了de novo组装中的重要因素,并提供了重建短读长RNA-seq转录本的方法指南。通过使用一些优化方法,极大地提高了C. sinensis转录组de novo组装的质量。该研究刊登在2011年的《BMC Bioinformatics》杂志上。

参考文献:

Optimizing de novo transcriptome assembly from short-read RNA-Seq data: a comparative study.QiongYi Zhaoet al.BMC Bioinformatics.2011

作者简介:

郝沛:上海生物信息技术研究中心 研究员/课题组长。长期从事生物信息学研究和数据挖掘应用工具的研发。

李轩:中国科学院上海生命科学院植物生理生态研究所研究员,博士生导师。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组负责人。主要从事生物信息学和系统生物学的应用研究。