为在群体水平上了解端粒生物学,人们开发了高通量端粒长度检测方法,其中一种方法使用定量PCR(qPCR)来检测端粒与参考序列的相对丰度。特别地,近期推出的计算方法(如TelSeq),可从全基因组测序(WGS)数据中检测平均端粒长度。目前,群体规模生物样本库基因组测序的进步为利用这些方法研究端粒长度的遗传架构以及其对人类健康的影响提供了前所未有的机会。
近日,英国阿斯利康公司团队在Nature Genetics上发表了题为“Genetic architecture of telomere length in 462,666 UK Biobank whole-genome sequences”的文章。利用来自462,666名英国生物样本库(UKB)参与者的WGS数据,研究团队分析了端粒长度的遗传结构,包括来自罕见和常见变异的影响,并结合参与者的qPCR数据开发了一个端粒长度联合指标,能够更好捕捉与端粒长度相关的遗传调控。研究发现了与端粒长度显著相关的64个变异和30个基因,这些基因中有16%是已知的克隆造血(CH)驱动因子。体细胞变异分析则揭示了端粒长度与基因特异性的关联,包括具有大型SRSF2突变克隆个体的端粒延长,由其他基因驱动的克隆扩增个体的端粒缩短。该研究证明了罕见变异对端粒长度的影响,在CH相关基因中观察到更大的影响。
文章发表在Nature Genetics
研究团队对490,397名UKB参与者的462,666个样本(94%)进行了分析,这些样本已进行qPCR端粒长度估算;并使用另一种端粒长度估算方法TelSeq,从WGS数据中估算了端粒长度。
与预期一致,TelSeq和qPCR估算的端粒长度均与年龄、性别和血统显著相关。有趣的是,在排除潜在测序混杂因素后,qPCR和覆盖率调整后的TelSeq端粒长度估算值仅有中等相关性。在一个联合模型中,每个指标与年龄之间的关联仍非常显著,表明每个指标都捕获了额外的信息。进一步的主成分分析得到一个包含qPCR和调整后TelSeq的线性组合(图1),在预测年龄方面,与采用单个指标的模型相比,使用第一主成分PC1可显著提升性能。
图1.端粒长度联合指标改善遗传发现。
接下来,研究团队尝试确定与端粒长度相关的常见变异,重点关注了438,351名具有广泛欧洲遗传祖源的非芬兰人群(NFE);并进行基于qPCR、WGS、PC1或PC2端粒长度估算的常见变异GWAS。连锁不平衡回归分析显示,PC1向量具有最高的遗传力,表明端粒长度联合指标比单独使用qPCR或TelSeq更能解释由于遗传变异导致的端粒长度差异。
研究团队对qPCR、TelSeq和PC1 GWAS中所有显著位点进行了单变异精细定位。结果显示,PC1可更有效地识别潜在因果变异;在PC1 GWAS中共鉴定出192个显著位点,其中70个不在先前涉及位点的1Mb范围内;与qPCR或TelSeq相比,已知基因位点与PC1的关联更强。在PC2 GWAS中,研究团队还鉴定了22个重要位点,其中大多数完全由单一端粒长度指标驱动。上述结果证明了端粒长度联合指标的重要价值及其在检测关联方面的优越性能。
研究观察到,罕见变异对端粒长度的影响明显大于常见变异,并且与许多端粒相关疾病有关。为此,研究团队对439,351名具有NFE遗传血统的UKB参与者WGS数据中的蛋白质编码变异进行重点分析,以检测罕见变异对PC衍生端粒长度估算值的影响;并进行变异水平(全外显子组关联研究(ExWAS))和基因水平(稀有变异聚集折叠)分析。结果显示,PC1有62个显著的罕见变异胚系关联,涉及19个不同的基因;其中16%(10个)仅与 PC1显著相关,与基础qPCR或TelSeq检测无关。
39个罕见胚系变异与端粒长度延长有关,并集中在CST(CTC1)和Shelterin(ACD、TERF1和TINF2 POT1)复合物的组分中,其中10个是CTC1、POT1、SAMHD1、TINF2和TERF1基因中的蛋白截短变异,这些基因都与端粒相关疾病有关。剩余23个罕见的非同义胚系变异与端粒长度缩短有关,其均集中在与常染色体显性遗传性角化不良和/或肺纤维化(IPF)相关的基因中,即ACD、PARN、NAF1和TERT。特别地,CTC1中有2个蛋白截短变异也与端粒长度缩短相关。
图2. 端粒长度的罕见变异分析。
研究团队进行了基因水平的变异集合分析(collapsing analyses),以确定与端粒长度相关的基因;由于这些罕见变异在ExWAS分析中无法单独发现,因此使用了10 种合格变异(QV)模型,共鉴定出20个与PC1端粒长度显著相关的基因。
基因水平信号显示,有16个来自罕见蛋白截短变异QV模型,其中6个基因与端粒缩短有关(ATM、BRIP1、NAF1、PARN、RTEL1和TERT),剩余10个基因与端粒延长相关。上述10个基因中有7个在端粒长度损耗保护(POT1、TERF1、TFIN2、CTC1和 STN1)、DNA修复(DCLRE1B)和胸腺嘧啶核苷酸代谢(SAMHD1)方面具有公认的生物学作用。
研究团队整合了来自UKB Pharma蛋白质组学项目的蛋白质定量性状位点(pQTL)数据,该项目研究了约3,000种血浆蛋白的遗传关联。在所有PC1 GWAS显著位点中,确定了2,905个重叠的pQTL。评估显示,在266个重叠pQTL(9%)处存在调节端粒长度和血浆蛋白丰度的共享因果变异,其中10个为顺式pQTL,256个为反式pQTL。
接下来,研究团队利用孟德尔随机化方法分析了顺式pQTL,以评估血浆蛋白质组丰度是否与端粒长度有因果关系。经多次检验校正,发现9种蛋白质测定和端粒长度之间存在因果关系,包括一些公认的端粒相关蛋白(如TK1、CDA和PARP1)
端粒长度已被证明与CH存在因果关系。在罕见变异分析中,研究团队确定了端粒长度与5个已知CH驱动基因(ExWAS:CALR和JAK2;collapsing:CALR、TET2、ASXL1和PPM1D)的一些关联,并推测这些关联可能是由体细胞事件驱动。
深入分析发现,大多数CH驱动基因与较短的端粒长度相关,包括SF3B1和PRPF8;相比之下,由DNMT3A基因突变驱动的CH与较长的端粒长度显著相关。接下来,研究团队依据突变型CH克隆的大小对其进行分层。在整体CH和DNMT3A突变型CH中,小克隆与较长的端粒长度相关;一些其他CH驱动因子也存在负相关(如PPM1D),其中小克隆与较短的端粒长度相关,这表明较短的端粒促进了某些CH亚型的获得。
对于整体CH和大多数单个CH驱动基因,端粒长度随着克隆大小的增加而逐渐缩短,这可能反映了在克隆扩增时细胞分裂导致端粒加速缩短。但SRSF2突变型CH是一个显著例外,其中大克隆意外与较长的端粒长度相关,这表明SRSF2突变可能介导了CH中端粒的延长。
图3. 端粒长度和CH之间的关系。
综上所述,研究团队利用来自490,397名多祖先UKB参与者的WGS数据全面分析了端粒长度的遗传结构,发现qPCR和WGS衍生的端粒长度估计捕获了与端粒长度相关的额外遗传关联。利用主成分分析将这些指标整合成一个联合指标,能够显著提高端粒长度估计的准确性,不仅增强了下游分析,还能够区分真实的信号。该联合指标在基于人群的研究中可提供全面、技术稳健的端粒长度遗传探究。
通过常见和罕见变异的分析,研究描述了几个端粒长度位点,这些位点可以深入了解端粒生物学。此外,研究发现了端粒长度和CH之间的驱动基因特异性联系,为驱动克隆扩增的机制提供了额外的见解。例如,特定剪接基因突变,如SRSF2,只在老年人中驱动CH,端粒会随着年龄的增长而自然缩短;SRSF2突变CH的端粒不会随着克隆扩增而缩短,甚至不会延长,这与其他CH基因驱动的克隆扩增中端粒的加速消耗形成鲜明对比。总之,该研究提供的端粒长度分析结果将有助于深入了解疾病的发病机制,进而确定潜在的新治疗靶点。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!