已有研究表明,遗传变异与人类性状和疾病的关联大多是非编码的,且与附近的遗传变异存在强连锁不平衡(LD)。在这一背景下,单一的因果变量往往被认为是关联的基础,但目前尚没有对因果变量的数量进行系统评估。
全基因组关联研究(GWAS)已成为评估个体遗传变异对表型影响的重要方法。但由于LD,通常研究人员无法从多个相关变异中确定单一的高度相关和可能的因果遗传变异。为了解决这一问题,多种统计和功能精细定位方法已被开发出来,以确定最有可能隐藏因果等位基因的可信变异集。然而,这些技术尚无法区分近端或高度关联的变异,并且缺乏关于关联信号背后的因果变异数量的系统先验信息。大规模平行报告分析(MPRA)是分子水平的遗传分析工具,已被用于在单次试验中筛选成千上万的基因序列及其变体。
近日,斯坦福大学医学院研究团队证明,MPRA提供了一个可扩展平台来分离和定位复杂人类表型相关自然遗传变异体的调控,并强调了现有变异体解释和计算精细定位方法的局限性。该研究结果发表在Science上,文章题为“Multiple causal variants underlie genetic associations in humans”。
研究团队从744个基因中选择了独立的eQTL信号。对于每个先导变异,研究团队确定了r2 >= 0.85的所有附加变异,这些变异至少在名义上与同一基因相关。最终构建的文库包含30893个变异,每个eQTL位点的中位变异为50个,所有这些变异都与基因表达高度相关,并与各自的先导变异处于高LD(图1)。对于每个变体,研究团队提取了150bp的基因组序列,并通过随机条形码生成了一个MPRA库。在150 bp的多个变异窗口中,研究人员为每个可能的单倍型设计了不同的寡核苷酸,平均每个变异设计了3.19个寡核苷酸,共计49256对等位基因。插入报告基因后,将文库转染3个lcl,测序并对每个寡核苷酸进行定量分析。
图1.设计和实现一个连锁变异大规模并行报告分析。
大量的MPRA表达效应为鉴定影响eQTL中基因表达的转录因子提供了机会。研究发现,在MPRA表达效应中,多个转录因子的ChIP-seq峰普遍富集。这些富集均为阳性,表明显著表达效应相对于非显著表达效应的代表性增加。此外,应用更严格的表达效应过滤器显著增加了这些基因在大多数转录因子中的富集,优势比为1.4-39倍(图2)。上述结果揭示了分析中捕获的广泛调控元件效应,并强调了多个转录因子在驱动遗传变异调控效应中的作用。
图2.调控变异的一般和等位基因特异性功能特性。
研究团队利用序列和序列注释来总结和预测非编码变异的调控效应。研究团队评估了最先进的全基因组非编码变异效应预测器能否识别MPRA检测到的具有显著等位基因效应的遗传变异。利用Enformer的主成分得分,研究发现在Enformer得分的高百分比中显著富集了等位基因变异(图3)。随后,研究团队用来自FAVOR的主成分(APCs)分析对所有变体进行注释。结果显示,在一些APC中,MPRA效应的显著性和非显著性存在差异,反映了与Enformer相同的模式,即在高百分位富集最强。
图3.综合非编码变异效应预测。
为精细绘制高置信度的因果变异,研究团队将eQTL统计数据与MPRA等位基因效应进行了比较。结果显示,在所有基因座中,63.4%和31.8%位点分别至少有一个这样的表达效应和等位基因效应(图4)。17.3%位点具有一个以上的显著等位基因效应,表明相当数量的特定表型可能关联多个因果变异。
图4.调控位点内等位基因异质性的分解。
为了确定eQTL和人类表型之间的共享遗传结构位点,研究团队检索了数据集中检测过的所有基因,这些基因在LCL eQTL和一个GWAS数据集之间有一个或多个显著的潜在共定域。值得注意的是,大多数共定化发生在具有不止一个等位基因MPRA效应的区域(77%),有些位点包含多达9个具有一致方向性效应的活性变异(图5)。
综上所述,该研究团队证明了MPRAs提供了一个可扩展的平台来分离和绘制复杂表型相关自然遗传变异的调控事件,并强调了现有方法的局限性。研究发现,显著和非显著等位基因MPRA变异相对于相应的全基因组分布呈现高度移动的特点。这一效应表明,功能预测可能能够很容易地从基因组背景中区分eQTL区域,同时区分同一区域内高度关联和共同显著变异的调控。以上结果为包括基因表达和复杂表型在内的数百种独立遗传相关特定变异研究提供了新的证据。
Nathan S. Abell et al. Multiple causal variants underlie genetic associations in humans. Science, 2022, doi:10.1126/science.abj5117.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!