基于定量重叠混合编码测序确定罕见变异载体

全基因组关联研究已经揭示罕见变体是许多复杂的人类疾病遗传的原因,凸显出检测和筛选罕见变异的重要性。虽然大规模平行测序技术大大降低了DNA测序的成本,但由于数以千计的样本建立文库要对罕见的变异基因的携带者进行大规模重测序,仍然相当昂贵。有研究报告表明从群验理论技术和压缩传感技术可以在少数富集测序实验和显著的降低成本的下帮助识别在许多罕见变异携带者的样本。

东南大学生物科学与医学工程学院孙啸教授团队提出了一种高效混合编码测序策略,允许在许多个体有效重获变体载体,这比传统方法成本低很多。研究人员采用随机K值设计去混合样品,并根据显示的概率来优化设计参数。 根据测序深度分布的数学模型,选择最佳的阈值来验证池的正或负。然后,利用包含了测序结果的量化信息,设计了一个启发式贝叶斯概率解码算法识别变体的载体。进行计算机试验发现200个模拟大肠杆菌菌株中的变异载体。根据模拟数据集和可公开获得的Illumina测序数据,该方法方法精确地确定了0.5-1.5%变体频率范围内91.5-97.9%变种的变异载体。使用的rends的数量,即使样品被随机选择并合并也可以精确地确定变体的载体。该方法的表现优于公布的DNA Sudoku 设计和压缩测序。该研究刊登在201412月的《BMC Bioinformatics》杂志上。

参考文献:

Quantitative group testing-based overlapping pool sequencing to identify rare variant carriers.ChangChang Cao, et al.BMC Bioinformatics.2014 Dec.

作者简介:

孙啸:东南大学生物科学与医学工程学院教授,江苏省生物医学工程学会生物信息学专业委员会主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组学术骨干。主要从事生物信息学研究。