近日,发表于Genome Biology的一篇综述总结了应用染色体结构变异(SV)的进行临床诊断的解决办法,文章题为“Towards accurate and reliable resolution of structural variants for clinical diagnosis”。[1]文章分别总结了三个方面展望应用染色体SV进行临床诊断。分别是:1.建立标准参考材料;2.选择最优的测序策略;3.选择获取最佳的SV识别信号的方案。
文章发表于Genome Biology
随着多项基因组计划的完成,研究者总结出人类个体之间的差异通常表现为单核苷酸变异(SNV)、小插入和缺失(InDel,<50bp)和结构变异(SV)等。[2]其中SV分型和大小极其多样化(图1),范围从约50bp到超过兆碱基的序列。与其他类型的序列变异相比,SV对基因组的影响相对更大。SV包含无数由拷贝数变异(CNV)组成的亚类,其中包括基因序列的缺失、重复和插入,以及染色体重排,例如倒位和染色体间和染色体内易位。此外,SV还包括移动元件插入、多等位基因CNV、节段重复和由这些事件的多种组合组成的复杂重排。SV存在于每个人类基因组中,并影响分子和细胞过程、调节功能、3D结构和转录机制。因此,增加对SV结构和致病率的了解,有助于进一步辨别相关生理和病理生理过程。
图1.染色体结构变异示意图。来源:wiki [3]
SV可以产生明显的表型影响——破坏基因功能和调控或影响基因表达量,近期的多项研究证明了其在医学和分子生物学中的重要性。[4]
例如,在神经系统疾病中,帕金森症经常被认为是由于基因组中的ATTCC重复扩展导致。此外,在TAF1基因的内含子中插入逆转录转座子与相关的肌张力障碍有关。在癌症中,不同类型的SV已被证实可导致各种类型的功能障碍:1.缺失或重排导致基因失活,例如同源重组(HR)导致BRCA1和BRCA2失活;2.增加基因拷贝数导致基因过表达;3.基因融合,例如跨染色体融合多个基因的Her2阳性SKBR3乳腺癌;4.改变基因调控元件的位置导致基因表达发生变化。在遗传学研究中,多种疾病与基因区域的缺失或重复有关。例如,已经发现有三种复杂的SV分别影响ARID1B(Coffin-Siris综合征)、HNRNPU(肌张力减退)和CDKL5(早期婴儿癫痫性脑病)。
因此,通过在人群水平了解SV模式,可以帮助发现新的生物标志物和临床针对性的使用药物,在精准医学方面有巨大的应用潜力。
近年来,虽然人类基因组中的SV检测以及将其与表型影响相关联的研究方面取得了很大进展,但识别特定样本或大量异质样本中的SV还不够准确。与其他遗传变异相比,SV导致的核苷酸变化更多。在过去的15年中,已经开发了许多技术来识别不同类型的SV,从基于细胞遗传学的检测(例如核型分析)、基于阵列的技术(例如SNP array和FISH)、短读长测序(例如NovaSeq),以及链接读取测序(Linked reads测序,例如10X Genomics Chromium Technology)和长读长测序(例如PacBio和Nanopore)。同样的,研究人员针对每种技术开发了许多SV调用算法。例如,仅短读长全基因组测序(WGS)就有大约80个SV分析工具可用。
然而,虽然有了这些发展,但我们如何才能以足够的准确度和精确度改进SV的检测以用于临床诊断?研究团队从三个方面对应用染色体SV进行临床诊断进行了总结和展望,分别是:1.建立标准参考材料;2.选择最优的测序策略;3.选择获取最佳的SV识别信号的方案。(图2)
图2. SV检测的示意路线图。来源:Genome Biology
标准的参考信息可用于评估SV检测的假阳性和假阴性率。具体而言,参考信息可用于评估测序技术的准确性和可重复性,优先考虑导致系统错误的测序混杂因素,并建立SV检测的最佳实践。在实际操作中,广泛使用包含充分表征的遗传物质或合成掺入对照的参考标准,可以用来校准测序平台和评估SV检测能力。因此,充分表征和广泛可用的参考样本是评估SV检测准确性和重现性以及了解数据准备或分析中潜在偏差的基础。
由美国FDA领导的测序质量控制II期计划(SEQC-II)成立了多个工作组来表征参考样本,然后跨不同实验室进行高深度多平台测序,旨在促进遗传变异检测的鉴定和验证,并促进可重现性科学研究。(图3)
图3.测序质量控制 II 期计划。来源:Nature
目前,SEQC-II计划在推进SV检测方面取得了长足的进步。(图4)首先,SEQC-II联盟基于肿瘤正常参考样本的多平台测序建立了高质量的SV调用集,系统地评估了跨平台体细胞SV检测的可重现性,并对各种软件工具的性能进行了基准测试。其次,SEQC-II联盟基于家庭成员B淋巴细胞系构建了种系参考样本。除此之外,SEQC-II联盟还构建了使用不同比例肿瘤细胞和正常细胞构建的肿瘤纯度梯度体细胞参考样本,以此模拟不同的生物样本类型。
图4. SEQC-II计划对参考样本和SV检测工作的深入研究。来源:Genome Biology
基因组学技术的进步在不断提高SV检测的分辨率和灵敏性,使得过去15年中发现的SV数量和研究呈指数增长。然而,基因组的内在复杂性、样品制备过程中引入的技术错误以及现有测序技术的局限性导致很大一部分SV无法重复检测到,并且它们的大部分复杂性仍然隐藏。SEQC-II采用多平台和多实验室的设计,全面评估SV检测的重现性和准确性,着手调查样本在多个测序仪器或不同实验室进行测序时SV检测的可重复性和可变性。(图4)
目前最佳的SV检测技术是长读长测序,即以PacBio和ONT代表的第三代测序手段。与短读长测序相比,长读长测序通常可识别出两倍数量的SV。此外,长读长测序显著降低了短读长测序的总体错误发现率(例如,影响重复扩增的易位)。但长读长测序的成本比较高昂,而且对DNA的质量和数量要求也相对苛刻。
目前有多种基于短读长测序的SV检测方法可选择。Linked reads是一种快速且廉价的方法,并且还可以提供跨长链分子的信息,但是这种方法配套的分析软件还不是很多。此外,HiC和StrandSeq也可用于SV研究,StrandSeq能够准确检测倒位,但需要费力的准备工作,并且没有可用的标准化试剂盒。(图5)
图5. 多种测序技术对结构变异检测的比较。来源:Genome Biology
基因组学技术的发展也导致了不同SV调用算法的激增。目前,研究人员已经为不同的NGS数据类型开发了超过85种公开可用的SV调用算法。这些算法通过检查:reads对、测序深度、拆分reads以及从头或局部组装等方面,来识别参考基因组和样本reads之间的差异。不断产生新的SV调用算法是为了改进以前的缺点,从而提高精度和回收率、速度和用户友好性,但是每种算法都有各自的优势和不足,因此用户在选择最佳算法时会因为没有合适指导而常感到迷惑。
考虑到不同SV调用算法在完整性和准确性方面的不同性能,深度学习可能是值得进一步探索的替代方案。卷积神经网络(CNN)是研究用于SV检测的主要深度学习算法,可将BAM文件以图像形式呈现,将变异检测转换为分类问题。对于每种类型的SV,常见的SV分析工具各有自己的优势和不足,通过机器学习可以将这些SV分析工具集成起来。最终,基于强化学习的集成SV分析工具允许集成任何单独的调用算法,合并不同的SV类型,并结合新开发技术的优势提升SV分析能力。(图6)
图6. AI在促进SV检测中的作用。来源:Genome Biology
随着基因组技术的进步、更多参考标准的建立以及高质量调用集的发布,SV检测领域不断扩大。这些资源使我们能够进一步研究一些亟待解决的关键问题。值得注意的是,该文章提到,医药监管部门关注的是标准化结构变异检测和分类以便于临床采用,建议该领域各相关方能够建立一座桥梁,以建立最佳实践和质量控制,鼓励将SV诊断纳入临床实践。此外,人工智能的创新可能有助于解决SV检测中的关键挑战,并提供替代选项来开发更准确和更强大的方法。相信很快就会出现更准确和可重复的SV检测方法,从而生成更完整的人类基因组图谱,进一步解决SV相关疾病难题和加速临床应用。
参考资料:
[1] Liu, Z., Roberts, R., Mercer, T. R., Xu, J., Sedlazeck, F. J., & Tong, W. (2022). Towards accurate and reliable resolution of structural variants for clinical diagnosis. Genome Biology, 23(1), 1-25.
[2] 1000 Genomes Project Consortium. (2015). A global reference for human genetic variation. Nature, 526(7571), 68.
[3] Wikipedia contributors. (2021, October 13). Structural variation in the human genome. In Wikipedia, The Free Encyclopedia. Retrieved 06:57, March 16, 2022, from https://en.wikipedia.org/w/index.php?title=Structural_variation_in_the_human_genome&oldid=1049703369
[4] Mahmoud, M., Gobet, N., Cruz-Dávalos, D. I., Mounier, N., Dessimoz, C., & Sedlazeck, F. J. (2019). Structural variant calling: the long and the short of it. Genome biology, 20(1), 1-14.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!