宏基因组序列特征比较

序列特征通过k-tuples (or k-mers, k-grams)频数表示被广泛用于比较个体生物的基因组序列,以识别顺式调控元件或研究调控序列进化。最近二代测序(NGS)技术产出了很多各类环境宏基因组样本的read数据集。不仅组装这些reads很困难,将reads比对到基因或通路的研究也因数据库不完整而受限。但是基于序列特征的分析方法不需要完整的基因组或已有数据库因此该方法在比较二代测序数据的宏基因组样品中将是非常有用的尽管如此利用序列特征比较宏基因组样品的方法还没有得到充分的研究

清华大学自动化系和信息国家实验室张学工教授领导的科研团队研究了几种不同的措施包括d2, d2 *  d2 S其中d2 S研究人员研发的一种适用于CVTree的方法(Qi et al., 2004)基于相对di-,tri-,tetra-nucleotide频率(Willner et al. 2009),标准Ip通过频率向量测定然后使用序列特征进行宏基因组样本的比较。通过大量的模拟和三个真实宏基因组二代测序数据,33个哺乳动物的39个粪便样品56个海洋样品和13个人类粪便样品,对这些方法进行了效果比较。结果显示,当通过聚类或恢复环境梯度影响微生物样本来比较宏基因组样本时,不同样本的d2s值性能最优。通过宏基因组样本分析可以更深入的了解环境因素对微生物组成的影响我们的结果显示,哺乳动物肠道菌群与饮食、肠道生理功能密切相关,海洋生物的序列特征与其地理位置和环境温度更相关.

研究人员认为序列特征在不基于数据库参考的情况下,能够依据NGS数据成功揭示宏基因组样本中的主要种群及梯度关系。d2 S值是实际应用中很好的选择tuple大小的最佳选择取决于测序深度但在适当的测序深度下选择范围又很广该研究发表在2012BMC Genomics》杂志上。

参考文献:

Comparison of metagenomic samples usingsequence signatures.Bai Jiang,et al.BMC Genomics.2012 

作者简介:

张学工清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。