精确估算测序数据中的单体型频率,用于鉴定罕见单体型携带者

近年来,在全基因组关联研究中发现复杂疾病的遗传性缺失的各种假说。研究主要聚焦于单倍体基因型,以提高检测与疾病关联的可行性。为了方便对单倍体基因型的进行关联分析, 很有必要精确地估计合并样品的单倍体基因型频率。

东南大学生物科学与医学工程学院孙啸教授团队利用单倍型数据库,提出Ehapp基于算法求解线性方程组,从混合的测序数据估计单倍型的频率。利用模拟数据分析了各种因素对性能的影响。这种方法预测全覆盖率为50X10个单倍型的混合序列,单倍型频率仅为3%左右。当未知的单倍型存在,该方法保持优异的性能,单倍型频率比实际频率要高于0.05。 比较结合了模拟数据与公开的Illumina测序数据,表明新方法在许多测序研究设计中的技术状态。研究人员还了运用verlapping pool测序来有效地识别罕见的单倍型携带者的可行性。该研究刊登在2015年《Bioinformatics》杂志314期上。

参考文献:

Accurate estimation of haplotype frequency from pooled sequencing data and cost-effective identification of rare haplotype carriers by overlapping pool sequencing. Cao CC, et al.Bioinformatics. 2015,31(4)

作者简介:

孙啸:东南大学生物科学与医学工程学院教授,江苏省生物医学工程学会生物信息学专业委员会主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组学术骨干。主要从事生物信息学研究。