人类基因组数据是现代人类遗传学和基因组学研究重要的参考资源,其逐步更新和完善对人类基因组学相关应用至关重要,包括基因组比对、变异检测、功能注释、群体遗传学和表观基因组分析等。
虽然第一个人类参考基因组序列的发布距今已20多年,但目前的参考基因组仍存在少量错误,以及一些由于组装困难而遗留的空白区域。因此,像大多数技术驱动的重要资源一样,人类参考基因组也早该升级了。今年4月末,Science期刊以特刊的形式发布了最新人类基因组计划完成的系列报道。
人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC) 旨在创建一个更为精准和完整的人类参考基因组,该计划以图形为基础、以端粒到端粒的测序结果建立尽可能高质量的人类参考泛基因组。近日,HPRC在Nature上发表了题为“The Human Pangenome Project: a global resource to map genomic diversity”的观点文章,概述了人类泛基因组参考联盟的战略目标、挑战和机遇。希望与全球范围内的科学家和生物伦理学家共同创建一个完整的人类全基因组参考资源,使其更多地涵盖整个基因组范围内的变异信息,为更大规模人类基因组资源提供终极指南,为开发新的概念框架和分析方法,以构建下游分析和可视化的全基因组基础设施和工具奠定坚实基础。
文章发表在Nature
HPRC的战略目标
全基因组是代表物种遗传多样性的多个个体的全基因组参考序列,这一概念最初是在细菌基因组中普及,现在已被应用到人类基因组学领域。全基因组数据的构建依赖于高通量测序仪器生产的高质量、分阶段的单倍型数据,高度准确和完整的单倍型基因组将被组织成一个基于图形的数据结构,用于全基因组参考序列的构建。
HPRC通过整合国际科学界的观点,协调多学科合作发挥作用,召集跨机构和跨国研究团队,致力于样本收集、群体遗传多样性、分阶段测序和组装、构建全基因组参考的标准方法、后期资源改进和维护,资源共享和推广等工作。
图1. HPRC整体规划和目标,来源:Nature
初始数据生成和发布
基因组学的技术进步使得长片段重复序列的测序、染色体的物理映射以及母系和父系遗传单倍型的分阶段组装成为可能。在项目的初始阶段,研究团队评估了多种测序技术和基因组组织算法,以确定平台的最佳组合,并开发了一个自动流水线,为生成最完整和准确的基因组把好技术关。
分析发现,利用亲代短读长序列数据对后代长读长数据的单倍型进行排序的方法得到的每个单倍型是最完整的且含有最少的结构错误。在未来,研究团队将进一步优化测序、装配和分析方法,以创建完整T2T二倍体基因组为目标,包括重复和结构可变区域,如着丝粒、端粒。创建高质量的完整基因组还将推动二倍体基因组组装和质量控制工具的开发和改进。
图2. 基因组测序及组装标准化流程,来源:Nature
人类完整参考泛基因组的构建
HPRC正在构建一个包含三个互补部分的参考泛基因组:(1) 单倍型,即输入序列集内的序列;(2) 全基因组比对,可以有效地将每个输入单倍型作为参考嵌入到该序列图;(3) 参考坐标系统,这是一个可兼容的坐标系统和序列集,可用于后续的补充和更新。
单倍型提供了数以百计的基因组个体代表,跨越全球多样性。每一个组装完成的单倍型将单独作为参考用于目前的人类泛基因组组装;全基因组比对代表了个体集合之间的同源关系评估。这种规范的比对将支持单倍型之间的坐标转换,并定义等位基因关系,将为许多新兴的全基因组分析工具和流程提供基础;坐标系统提供了一种全局的、明确的方法来指代泛基因组中的所有变化,它使单倍型中的所有变体成为一类对象,可以同等地引用它们。最终,它将提供一个更完整的方法引用现有线性引用中不包含的变体,这对构建在泛基因组引用上的数据库和工具很有用。
图3. 人类参考泛基因组的构建及应用,来源:Nature
与疾病研究的相关性
作者在文章中指出,正在构建的人类泛基因组资源和开发的方法将深刻影响人类疾病和精准医学的遗传基础研究。使用更加完整的全基因组参考资源有三个非常明显的优势:
首先,当对患者样本进行测序和分析时,一个包含人类遗传多样性的更完整的参考基因组将产生更少的模糊映射和更准确的全基因组范围内的拷贝数变异分析,这将改善基因诊断和变异的功能注释。
其次,这一资源将有助于发现疾病风险等位基因和以前未观察到的罕见变异,特别是在标准短读长测序技术无法获得的区域。例如那些重复扩增位点,通过长读长测序对这些位点进行解析,提高了基因分型的能力,使得通过全基因组关联研究和定量性状位点鉴别方法去发现新的遗传关联成为可能。
第三,完整全基因组代表了人类基因变异如何被发现并被鉴定的根本性转变,从简单地将患者序列比对到一个参考基因组上,发展为通过构建分阶段的基因组组合,并将它们与参考图表比对,以在碱基对水平上精确定位所有的基因差异。总之,随着长读长测序成本的降低和全基因组方法的发展,未来患者样本的检测可能会更适合用长读长测序技术进行,以提高灵敏度和准确性。
结 语
目前的GRCh38人类参考基因组是众多基础和临床研究的重要资源,但很明显,它还是可以被持续改进和更新的。通过对公共和私营部门的多年战略投资,HPRC分析并确定了更好地代表全球人类基因组多样性的技术和方法。
概括来说,人类全基因组参考数据将收集由高效算法创新生成的精确单倍型基因组组合,而这一策略也终将被科学界广泛接受和使用。其中,个体基因组的收集,包括序列信息、基因组坐标和注释,将是人类基因组多样性的一个重要资源。最初的人类基因组计划的初步完成使人类健康和基因组医学研究取得了重大进展,现在,也是时候构建更具包容性、完整性、准确性的人类基因组资源,用来更好地体现人类基因组的多样性,最终更好地为人类服务。
参考文献:
1. Wang, T., Antonacci-Fulton, L., Howe, K. et al. The Human Pangenome Project: a global resource to map genomic diversity. Nature 604, 437–446 (2022).
2. Rhie, A. et al. Towards complete and error-free genome assemblies of all vertebrate species. Nature 592, 737–746 (2021).
3. Logsdon, G. A. et al. The structure, function and evolution of a complete human chromosome 8. Nature 593, 101–107 (2021).
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!