新软件OLego:快速、灵敏比对mRNA

分析基因序列数据的一个关键步骤是准确有效的映射数以百万计的reads到参考基因组和外显子结点。冷泉港实验室、清华大学以及霍华德休斯医学研究所的研究人员针对从头测序拼接mRNASeq readsmapping专门开发出新算法OLegoOLego 采用multiple-seed-andextend(多重seed区拓展)方案,不依赖于一个单独的外部校准器。通过对small seed(哺乳动物基因组的14个核苷酸)搜索实现了高灵敏度的结点检测。为了提高准确性和节点的模糊映射,Olego使用内置的统计模型,通过剪接位点强度和内含子大小来给外显子结点打分。BurrowsWheeler transformBWT)用于多步的算法,有效地映射到seed区。该研究结果发表在20135月的《Nucleic Acids Research》。OLego免费下载地址:http://zhanglab.c2b2.columbia.edu/index.php/OLego.

OLego的流程如下图所示:

1)首先尝试连续映射到基因组或外显子序列。如果发现没有采样数在允许不匹配的数量里,结点序列从新搜索步骤;

2)每个未映射的reads根据结点搜索分割成指定W大小的多个种子;

3)种子映射并将采样聚类分为候选序列;

4)识别和延伸候选的外显子;

5)在两个连续的候选外显子和reads的结尾连接然后搜索搜索,并在必要时搜索小外显子;

6)最后,外显子和连接点被连接并排序,以确定整个reads的最佳序列。


OLego可以进行de novo结点搜索或在注释的剪接点数据库搜索。OLego输入格式为FASTAfastq文件,并输出SAM比对格式。从收集最佳序列结点和并生成BED格式。并在整个流程中支持多线程。OLego是一个开放源代码。在线免费提供在http://zhanglab.c2b2.columbia.edu/index.php/olego。 

研究人员也比较了同样基于seed-and-extend的四个软件:OLegoTopHatMapSplicePASSion。在每一个模拟测试中,研究人员产生了1000万个100nt150nt的双端测序reads。通过每个程序预测阳性和假阴性率报告独特的外显子结点,并三次重复这个过程,重复的平均结果如下图。 通过比较,OLego实现高灵敏度和准确性,使用small seeds可以更详尽的搜索,结合外显子连接强度定量建模和序列质量。正如预期的那样,当reads增大时,所有的基于seed-and-extend的工具具有更好的灵敏度。


 

之后,研究人员评估了四个软件之间识别真实结点的重叠程度。在所有成对比较中,由程序确定的共同结点的数目是高于预期(表2,上对角与下对角线)。


研究人员还比较了reads覆盖度影响每个程序中在外显子结点检测的敏感性。为此,研究人员将为每个程序根据其真实reads覆盖度模拟结点,估计结点的敏感度。

A10002x 100nt模拟reads;(B10002x 150nt模拟reads

每个图,根据他们的深度将模拟路结点分级,从每个结点1reads到每结点4个以上reads。右轴是真实的数量模拟结点,左轴是mOLegoMapSplice, TopHat and PASSion的敏感性。比对速度:TopHat (square)OLego在不同数量的CPU1000万个模拟双端测序reads运行时间(well time)。

A2x 100nt的模拟reads B.2x 150nt的模拟数据

small and micro-exons在模拟mRNA-Seq数据发现。在每一个图中,内部外显子内映射reads计数。真数量(公开栏)和假数量(柱)的外显子大小不同,分别显示OLegoOLego, TopHat, MapSplice and PASSion真实比较。在每个图表示整体灵敏度(SN9-39)9-15nt外显子(SN9-15)的敏感度大小。

A2x 100nt的模拟数据  B2x 150nt的模拟数据

将小鼠视网膜的mRNA-Seq的真实数据应用在程序中,下图是在小鼠视网膜的mRNA-Seq数据的外显子结点分布。A.OLego发现结点根据支持reads分级。B根据其锚尺寸将结点序列分组。结点的种类与A图中以相同的显示,和结点序列的数量显示在右边的Y轴。

在小鼠视网膜mRNA-Seq 数据发现micro-exons,通过OLego确定 micro-exons的数量。外显子根据它们的大小(9-27nt)分级,按每一级他们有被分为三组,如图A所示。外显子的累积分布包含注明等级和高置信度新micro-exons,只有那些10reads的盒式外显子在这项分析中支持支持任一亚型,如图B。剪切位点总得分(3+5’剪切位点)的分布显示了每组micro-exons箱线图,图C所示。内含子序列上游100 nt的嘧啶(C / U),使用10nt滑动窗口计算,图D所示。在micro-exons跨物种保护。phastCons得分的中位数在30种脊椎动物中的内含子区域紧接的的注释的上游和下游,和高信任度的micro-exons的中位数显示,如图E

一个在KCNN2基因9nt新型micro-exon的例子表示,这是当前基因模型(e.g.RefSeq)cDNAEST数据中外显子缺失,但两亚型在小鼠视网膜是丰富的(在顶部的两轨道)。微外显子是嵌入在一个较长的拉伸保守序列。micro-exon在一段较长的保守序列中是嵌入的(如下图所示)。

OLego micro-exons 的体内实验中得以验证。

研究人员系统地评价使用模拟数据和真实数据比较OLego及现有软件的性能。OLego表现出更好的灵敏度,更高或类似精度而且大大提高速度。OLego还在小鼠的转录组中确定了新型micro-exons (<30 NT),其中有许多是非常保守的,可进行活体实验。

通过实验证实,OLego可用于大规模mRNA-Seq数据的有效序列正在尝试以前所未有的速度和深度。它可以结合下游的分析工具,来转录重建和量化来揭示哺乳动物和其他物种的转录组的复杂性的过程。

参考文献:

OLego: fast and sensitive mapping of spliced mRNA-Seq reads using small seeds.Jie Wu,et al.Nucleic Acids Research.2013 May.

作者简介:

张朝林:哥伦比亚大学,洛克菲勒大学博士后,研究助理教授 

张奇伟:清华大学信息学院与医学院双聘教授,清华信息国家实验室合成与系统生物实验室主任,首批千人计划教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第三课题组负责人。主要科研领域与方向:计算生物学与生物信息学;合成生物与系统生物学。