人类遗传学的一个主要目标是利用自然变异来了解基因组中每个蛋白质编码基因改变导致的表型影响。基因组学家曾估计,为了实现了解每个人类基因遗传变异对健康产生的影响这一最初目标,可能需要对数百万个特征明确的不同个体进行测序。近几年,随着基因测序技术的发展,大规模人群基因组测序使人类遗传学的“基因-表型”目标变得似乎可以实现。
近期,来自美国“再生元”遗传研究中心的研究团队与UK Biobank团队合作,对45万名参与者进行了外显子组测序,利用生物信息分析研究了蛋白质改变带来的表型变化。该研究成果已发表在Nature上 ,文章题为“Exome sequencing and analysis of 454,787 UK Biobank participants”。
文章通讯作者Manuel A. Ferreira博士
研究团队对454,787名UK Biobank研究参与者进行了外显子组测序,以探索蛋白质变异及其影响。在18,893个基因的编码区中,研究团队确定了1200万个编码变异,其中包括约100万个功能缺失变异和约180万个有害错义变体(图1)。该研究发现的编码变异数超过了TOPMed和gnomAD两大数据库编码变异数的总和。在已鉴定的变异中,有3,457,173个同义突变、7,878,586个错义突变和915,289个推定的功能丧失 (pLOF) 变异(图1)。该最新编码变异库结合了大量样本和数以千计的可用表型,为大规模评估基因功能提供了资源。
图1.外显子组测序数据中发现的基因变异统计。来源:Nature
通常而言,测序数据不能用于说明基因功能。为了证实分析外显子测序数据可以直接用于基因功能分析,研究人员尝试将研究中发现的变异与3,994个健康相关的性状进行关联,并发现其中564个基因与性状产生联系。
研究团队首先分析了来自欧洲血统430,998个体的WES数据,并对18,811个基因中每个性状和单个变异进行了约23亿次关联测试,最终发现8,865个显著关联,涉及564个基因、492个性状和2,283个基因-性状对(图2)。该研究确定的大量基因和表型的关联,为了解人类蛋白质变异的表型影响和确定新的治疗靶点提供了分析途径。
图2.与罕见变异相关的564个基因。来源:Nature
结果显示,显著关联中有一个是SLC9A3R2和高血压风险之间的关联。SLC9A3R2编码的NHERF-2,是一种肾脏表达的支架蛋白,通过与钠/氢转运蛋白的相互作用与钠吸收在功能上相关。研究发现,在PKD1的Arg2200Cys条件下,SLC9A3R2的罕见推定功能缺失(pLOF)突变、有害错义突变以及Arg171Trp的负担与收缩压 (SBP)、舒张压 (DBP) 和高血压保持高度相关。总体而言,该信号与钠平衡在调节血压方面作用一致,并且对SLC9A3R2进行合理阻断可以管理血压水平。
还有一个是儿童哮喘风险与SLC27A3中罕见推定功能缺失突变(pLOF)和有害错义变异之间的关联。SLC27A3编码一种酰基辅酶A合成酶,可激活长链脂肪酸,在动脉、脂肪和肺组织中表达最高。通过分析发现,SLC27A3与血液嗜酸性粒细胞数量有关,这是一种在过敏性哮喘中具有关键效应功能的细胞类型。
在当前的样本量下,需要将分析观察到的变异数量和预测的变异数量紧密匹配。于是研究团队使用当前的数据集作为基线,进行了扩展预测。当可以进行500万人规模的外显子组测序时,研究团队预测将会有18,035个基因突变被捕捉到,这将覆盖人类绝大部分蛋白质基因(图3)。
图3.外显子组测序数据中带有基因突变的基因数量。来源:Nature
同时,结果显示在使用不同大小的参考面板时,大面板估算稀有变异的能力更强。因此,研究团队预计随着参考面板规模增长到400,000个人甚至更多,就可以对更稀有的变异进行估算(图4) 。
图4.从外显子组测序推断罕见变异。来源:Nature
总 结
Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!