SAP—关于长序列读取和精确发现变异型的序列映射分析程序

第三代测序技术产生的序列能读取1000个碱基对甚至更多可能含有高多态性信息的碱基对。然而,目前大多数可用的序列分析工具只专门用于分析读取短序列。当使用传统Smith-WatermanSW)算法读取长序列映射时,会发现这是不可行的。复旦大学生命科学学院生物统计学研究所田卫东教授研究团队开发了一种新的序列映射分析程序,基于SW算法的改良版能加速校准进程。从模拟的基准数据和实际外显子的测序数据以及由第三代测序技术产生的真正大肠杆菌基因组序列数据可以看出,在读取速度和捕获读取比例上,SAP方法优于目前可用于测量长、短序列的方法。此外,在检测SNPInDel的模拟数据上,它实现了高精度。软件网址:https://github.com/davidsun/SAP.该研究发表在2012年《Plos One》杂志上。

参考文献:

SAPA Sequence Mapping and Analyzing Program for Long Sequence Reads Alignment and Accurate Variants Discovery.Zheng Sun and Weidong Tian.Plos One.2012

作者简介:

田卫东:复旦大学生命科学学院生物统计学研究所教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第五课题组学术骨干。主要研究方向:运用统计学、计算科学、生物信息学等手段进行算法开发,对组学数据进行整合分析并精确预测基因功能、基因-基因相互作用关系、基因表现型及疾病候选基因等。