一种基于关联性特征的宏基因组测序片段分装方法

20 世纪末,宏基因组学的概念被首次提出从此打开了利用宏基因组学方法和技术研究微生物的大门。随着高通量测序技术的成熟宏基因组学已经成为了一门新兴的热门学科。序列分析是宏基因组学研究的基础而序列分析的一个重要环节就是测序片段的分装(binning).分装的准确性直接影响宏基因组学研究的精度和效率提高分装准确性的关键在于提取出一种反映宏基因组测序片段物种分类的序列特征。目前主流分装方法利用的都是基因组序列的碱基组成性特征。东南大学研究人员深入研究序列的关联性特征提出了一种基于关联性特征的分装方法,结合机器学习算法实现准确的分装在对不同物种层次和不同复杂度的模拟宏基因组测序数据集进行分装时都能保持良好的性能。通过对比发现此方法分装的正确率和稳定性都要优于目前国际上的无监督分装算法以及那些单纯使用三联、四联核苷酸出现频率进行分装的算法.该研究刊登在20132月的《科学通报》上。

参考文献:

一种基于关联性特征的宏基因组测序片段分装方法.丁啸等,科学通报,2013.2

作者简介:

孙啸:东南大学生物科学与医学工程学院教授,江苏省生物医学工程学会生物信息学专业委员会主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组学术骨干。主要从事生物信息学研究。