随着牛津纳米孔公司(Oxford Nanopore)和太平洋生物公司(Pacific Biosciences)对三代测序技术的研究和推动,长读长测序(Long-read sequencing, LRS)在各领域研究中的应用越来越广泛。当前的长读长测序技术能够以前所未有的准确度和规模对人类的基因组进行评估。与此同时,近期研究表明,长读长测序对染色体结构变异(SV)可以进行准确的检测。检测基因组中单核苷酸多态性(SNV)、插入和缺失(InDel)、染色体结构变异(SV)和甲基化差异,可为基因组学和遗传学提供重要的理解。目前有很多针对这些变异进行检测的软件,但是这些方法无法充分利用长读长(Long-reads)数据,也没有在检测时整合染色体结构变异(SV)的数据,且不能解析单倍型的结果。
近期,来自休斯顿贝勒医学院人类基因组测序中心的Fritz J Sedlazeck教授,在Genome Biology上发表了题为“PRINCESS: comprehensive detection of haplotype resolved SNVs, SVs, and methylation”的文章。研究团队针对目前测序数据分析短板(对于长度数据中染色体结构变异的综合分析)进行了补充,开发了一种可以精准解析SNV、InDel、SV和甲基化数据的单倍型分析方法:PRINCESS(图1)。PRINCESS能够以最低的成本为每个样本提供全面的、单倍型解析结果。
图1.PRINCESS的架构。来源:Genome Biology
通过与Longshot和Clair2软件进行对比,结果显示PRINCESS具有最优的SNV分析能力(图2)。
图2 PRINCESS对SNV具有最佳分析能力。来源:Genome Biology
研究团队将PRINCESS 应用于来自腓骨肌萎缩症(CMT)患者的样本 (HS1011)所产生的测序数据。结果如图3A所示,PRINCESS能够将SNV、SV以及基因组注释信息成功对应起来。在此前的研究中已经报告了该患者的三种突变(p.R954X, p.Y169H和 p.M1),PRINCESS能够识别所有上述三种突变。此外,PRINCESS还能够检测到p.Y169H和p.R954X属于相同的单倍型,p.M1在相反的单倍型上(图3B)。
图3.PRINCESS对HS1011患者的分析。来源:Genome Biology
研究团队利用PRINCESS分析了与医学相关的193个基因,这些基因具有重复性,无法用NGS技术进行综合分析,并且评估了PRINCESS分析这些基因的能力(图4)。
图4.PRINCESS对193个具有挑战性的医学相关的基因分析。来源:Genome Biology
研究人员使用HS1011的测序数据分析了这193个基因。在这些基因中,部分基因没有显示任何变异,两个基因的覆盖率为零,一个基因无法从Ensembl注释中检索到。在其他的基因中,PRINCESS鉴定了18805个SNV和InDel以及100个SV,平均每个基因有101个SNV和InDel(图4B)。总体而言,在适合分析的189个基因中,相位块视图分析显示90.35%具有连续的相位块,表明PRINCESS能够完全定相和解析这些难以评估的医学相关基因。
人类白细胞抗原(HLA)与许多疾病有关,例如糖尿病、类风湿性关节炎、牛皮癣、哮喘等。HLA是人类基因组中约4 Mbp的高度多态性区域,其中3.85% 是低可映射性区域,使其通常难以进行比对和识别变体。研究人员利用PRINCESS确定了21102个变体,并成功将的95.02%区域进行相位块分析(图4C)。
HYDIN是一个大型基因(423 kb),其中75.56%的区域是低映射区。对于这样一个难以分析的基因,PRINCESS依旧确定了2041个SNV和InDel,其中大部分是杂合的(97.69%)(即两条同源染色体不一致)。PRINCESS也检测到在内含子中的一个缺失和两个插入(图4D)。此外,PRINCESS在GBA基因中确定了14个SNV 和插入缺失,并将它们全部分类在一个阶段块中(图4 E)。GBA基因突变是戈谢病的罪魁祸首,也是发展帕金森病的主要遗传风险因素。
通常而言,对长读长测序数据的SNV、SV和甲基化修饰分析需要专业的知识和技能,并且如何将这些信息充分利用起来,获得综合的数据图片也是具有挑战性的任务。针对这样的需求,研究团队开发了PRINCESS,针对以上三种类型的分析都显现出高精度的效果。同时,PRINCESS还能分析出SNV、SV和甲基化的单倍型信息,为更深入了解基因组提供了新的研究方法。
参考文献:
Mahmoud, M., Doddapaneni, H., Timp, W., & Sedlazeck, F. J. (2021). PRINCESS: comprehensive detection of haplotype resolved SNVs, SVs, and methylation. Genome Biology, 22(1), 1-17.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!