文章发表于Nature Communications
研究团队通过精确的HiFi长读长、Hi-C长读长测序技术对黑色素瘤COLO829癌症细胞系进行测序(图1)。此外,研究团队还开发了一种基于图的计算工具pstools,可处理多种不同的数据类型,并将其整合在联合序列空间中,能够保留不同层次的基因组复杂性以直接产生完整的phased基因组。该方法还可以有效地表征重复区域中的SV,在碱基和单倍型分辨率上优化了癌性突变的特征,并且可以在全染色体水平上进行多倍体定相(phasing)。
研究团队将pstools方法应用于COLO829的体细胞和胚系细胞,在全基因组上以碱基分辨率发现了166个体细胞结构变异(SSV)。将其与使用其他技术观察到的SSV进行对比(图1b),结果显示,pstools方法在碱基和单倍型分辨率上提供了更精确的SV表征。上述结果表明,与短读长测序技术相比,pstools方法可以在重复区域中表征更精确、全面的单倍型SV图谱。
图1. COLO829 HiFi/Hi-C测序和SV的发现。来源:Nature Communications
图2详细介绍了pstools算法的工作流程,其有效结合了HiFi和Hi-C技术的优势,能准确地解离染色体以及连接染色体臂,可用于表征染色体间和染色体内结构序列事件,为常规临床应用生成准确、连续和完整的复杂癌症单倍型基因组。
图2. Pstools算法的工作流程。来源:Nature Communications
研究团队在健康人体样本(HG002、HG00733和PGP1)上对pstools方法进行了基准测试,标准评估指标包括:NG50、switch/hamming误差以及总序列长度。结果显示,pstools算法生成了scaffold>6.0Gb的高质量组装 ,NG50组装>130 Mb。相比之下,使用hifiasm(Hi-C)方法生成的NG50组装<52 Mb,表明其不适用于染色体水平的基因组学研究。此外,pstools的组装质量较高,相位精度超98.5%,组装耗时较短,在12 h内就能完成(trio-hifiasm+salsa2方法耗时更长>2天)(表1)。
表1. phased序列评估统计表。来源:Nature Communications
为确认是否出现组装错误,研究团队使用Grch38作为参考序列,使用minimap2对上述组装进行比对操作,对scaffold进行了评估(图3)。结果显示,所有contig都被正确地分配到染色体中,与triohifiasm+salsa2相比,pstools方法可以产生高质量的phased scaffold。
研究团队还在COLO829癌症细胞系上对pstools方法进行了基准测试,并使用最先进的HiFi contigger(Hifiasm)和Hi-C scaffolde(salsa2)方法进行了独立对比实验。结果显示,Hifiasm+salsa2方法不能在染色体水平上重建phased基因组。相比之下,pstools方法不需要任何亲本信息,就能在染色体水平上产生兼具完整性、准确性和连续性的高质量组装(NG50 > 130 Mb)。此外,在碱基分辨率下,研究团队通过pstools共发现了19,956个插入、14,846个缺失、421个重复、52个倒置和498个易位,表明其能够鉴定复杂癌症基因组的单倍型SV(胚系和体细胞)并进行表征。
图3. HG002(左)和COLO829(右)的phased序列图。来源:Nature Communications
研究团队将通过pstools方法得到的高置信度SV调用集与其他多种技术(PacBio-CLR、Nanopore、PacBio-HiFi和短读长测序)得到的SV调用集进行了比较。结果显示,pstools方法的F1评分为93.9%(精确率96.0%,召回率91.9%),而基于Dipasm、Hifiasm+salsa2和Hifiasm+3D-DNA方法的F1评分<82%。与现有方法相比,pstools方法在癌症基因组学研究中更具优势。
有趣的是,pstools方法还能够检测到10号染色体上PTEN的纯合12kbp缺失(图4),可以发现由于同一或不同染色体上多个事件组合而产生的“断裂-融合-桥”(BFB)循环事件的SV。例如,研究团队在第15号染色体上发现了一个已知的BFB事件,该事件来自第6号和第20号染色体的插入。
图4. COLO829的全基因组SV表征。来源:Nature Communications
综上所述,该研究将高分辨率测序技术(HiFi和Hi-C)应用于COLO829癌症系,并开发了一种快速、准确的计算方法pstools,其性能优于现有方法trio-hifiasm和salsa2,有助于精确发现SV、重建染色体水平单倍型基因组,为分析单个患者的全谱SV提供了有效且简化的方法。此外,pstools方法能够产生高质量的胚系SV调用集,为临床医生提供了一种简单的方法来分析患者的SV,有助于更好地对患者进行诊断和疾病管理,包括预测治疗反应。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!