科研

首页 - 全部文章 - 科研 - UK Biobank全外显子精细定位分析,揭示新的性状相关罕见编码变异

UK Biobank全外显子精细定位分析,揭示新的性状相关罕见编码变异

外显子组关联研究表明,罕见的编码变异比普通变异具有更大的表型效应,且共同构成复杂性状遗传力的重要组成部分。目前,外显子组测序研究达到的样本量(n>100000),还无法满足将罕见变异插补到这种规模的队列中还不够准确,因此很难全面评估罕见编码变异的表型效应。已有的外显子组关联研究数据还不足以评估非常罕见的编码变异的表型影响。

英国生物库(UK Biobank,UKB)是遗传关联分析的一个强大资源,但UKB队列中约10%的外显子组测序数据不足以直接用于评估罕见变异。近日,Broad研究所的Po-Ru LohPo Ru Loh及其同事在Nature Genetics期刊发表了题为“Whole-exome imputation within UK Biobank powers rare coding variant association and fine-mapping analyses”的研究文章。研究团队通过依赖UKB队列中的单倍型共享,将外显子组范围的变异输入到整个队列中,共分析了54个数量性状,最终确定了1189个显著的性状变异关联,包括影响身高的罕见变异。

文章发表于Nature Genetics

研究团队利用49960名UKB参与者的全外显子组测序数据(WES)和整个队列的SNP阵列基因分型数据,将外显子组范围的变异输入所有UKB参与者。通过Eagle2对队列中的WES基因型调用和SNP阵列基因型进行阶段性分析,并利用Minimac4将这些变体输入之前为487409名UKB参与者生成的相控SNP阵列单倍型,实现了罕见变异插补精度R2>0.5。

研究人员检测了这些输入的变异是否与54个数量性状相关,例如血压和肺功能等。研究人员开发了一个严格的过滤框架,将变体注释过滤器与统计精细映射相结合,找到了1189个与独特蛋白质变体(675个)的关联,这些变体很可能是因果关系。在1189个可能的因果关系中,30%仅通过UKB外显子组测序数据的插补可以发现,在涉及超罕见变异的可能因果关联中,78%仅使用UKB WES队列的插补即可发现(图1)。

图1.全外显子组插补、关联和精细定位确定了可能与54个数量性状因果相关的罕见编码变体。来源:Nature Genetics

研究人员确定的675个罕见编码变体可能是致病的,它们大致均匀分布在等位基因频率的整个范围。相反,972个罕见的编码变异体被注释为高影响,并至少与一个性状显著相关,这些变异体丰富了常见的变异体,表明许多筛选出的变异体仅标记了因果共同变体。

此外,预测的功能突变(包括移码、终止增益和剪接变异体)在可能的原因变异体中富集了2.1倍。相比之下,未能通过精细映射过滤器的变体具有CADD和变体类型分布。错义变异体包括因果变异体和背景变异体,与背景变异体相比,错义变异体在因果变异体中产生更严重的氨基酸取代,在675个可能的致病变异体中隐性剪接变异体有11个(图2),表明可能的致病变异因有害性而富集。

图2.可能的因果编码变异是罕见的,并丰富了有害性。来源:Nature Genetics

在研究人员确定的1189个可能的因果变异-性状关联中,大约一半发生在含有同一性状的因果罕见编码变异的基因中。同时,罕见的编码变体存在更长的等位基因序列。对于56个基因-性状对,等位序列包含10个或更多不同单倍型的变体,8个不同的基因包含30个或更多变体的等位序列。在最长的等位基因序列中,ALPL中的45个罕见编码变异体与血清碱性磷酸酶水平独立相关,所有这些都对罕见的次要等位基因有负作用。令人惊讶的是,这些等位基因序列中错义变体修饰的氨基酸残基往往不会聚集在特定的蛋白质结构域中(图3)。

图3.许多基因含有一系列罕见的编码变异的长等位基因,其作用方向是一致的。来源:Nature Genetics

罕见的编码变异往往表现出多效性的影响。例如,细胞周期调节因子CHEK2和JAK2都含有可能与白细胞、红细胞和血小板特性相关的致病性变体。此外,三个调节Rho-gtpase的基因可能含有多种与血小板特性相关的致病性变体。此外,研究人员还发现了新的大效应变体,揭示了十个不同基因中的变异对身高的影响非常大,其中四个基因(NPR2, COL2A1, HERC1和PCNA)与表现为身材矮小或骨骼紊乱表型的孟德尔病有关。研究人员分析了肝、肾、心血管或内分泌功能的血细胞指数或生物标记物,结果表明,影响这些分子或细胞表型的罕见编码变体可能赋予下游疾病风险。

最后,研究人员将单变体分析结果与使用插补编码变体的检测结果进行比较,观察到单变量分析中最可能的因果变量具有一致的效应方向(图4)。

图片

图4.在一个等位序列中有10个或更多变异的所有基因-性状对的效应方向分布。来源:Nature Genetics

综上所述,研究人员通过对UKB队列部分数据的插补全面调查了罕见编码变体对54个表型的影响。结合精细定位分析,发现了许多新的有较大效应编码变异体,揭示了许多性状核心基因的长等位基因序列,证明了队列内插补在人口规模全基因组关联研究中的实用性,为今后的因果罕见编码变异体关联研究提供了资源。此外,随着外显子组关联研究的扩大,对10%的队列进行测序,并将剩下的90%进行插补,可以成为设计遗传关联研究的一种经济有效的策略。

参考资料:
1.Barton AR, Sherman MA, Mukamel RE, Loh PR. Whole-exome imputation within UK Biobank powers rare coding variant association and fine-mapping analyses. Nat Genet. 2021 Jul 5. doi: 10.1038/s41588-021-00892-1.
2.Imputation of UK Biobank Data Uncovers Rare Coding Variants Linked to Range of Traits
https://www.genomeweb.com/sequencing/imputation-uk-biobank-data-uncovers-rare-coding-variants-linked-range-traits#.YO_Vl_nYuM8
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章