在约一万种有记录的罕见疾病中,只有不到一半的遗传病因被解析。对大量表型多样化的罕见病患者进行标准化基因组测序,能够更广泛地发现各种罕见病的病因,同时提高患者的基因诊断率。英国十万人基因组计划(100KGP)是迄今为止最大规模的罕见病标准化基因组测序研究,包括34523名罕见疾病患者及其未受影响的43016名亲属的测序数据。这种大型基因测序数据集的规模和复杂性以及患者表型数据对生物信息学和统计学提出了挑战。最重要的是,来自成千上万个个体的基因测序研究的完整基因型数据通常存储在大小为许多万亿字节的不可修改的文件中,存在高存储和处理成本限制。
近日,美国西奈山伊坎医学院、英国剑桥大学、英国帝国理工学院联合英国基因组研究联盟等团队在Nature Medicine上发表研究文章“Genetic association analysis of 77,539 genomes reveals rare disease etiologies”。研究团队开发了一种数据库“Rareservoir”,用于灵活有效地处理罕见突变基因型和表型数据。Rareservoir大小为5.5GB,包含100KGP中77,539名参与者罕见突变和表型数据。利用Rareservoir数据库,研究团队通过贝叶斯遗传关联方法BeviMed推断了编码基因与临床医生诊断的269种罕见疾病类别之间的遗传关联,并确定了241个已知关联和19个以前未知的关联。
文章发表在Nature Medicine
Rareservoirv数据库包含100KGP中的1190万个罕见的外显子、单核苷酸变异(SNV)和小片段插入或缺失(indels)。100KGP计划对34523名罕见病者及43016名未受影响的亲属进行了测序,在注册过程中,临床医生根据患者的临床特征将他们分配到220种“特定疾病”中的一种或多种。特定疾病按层次结构分为88个“疾病亚组”,再将疾病亚种分为20个“疾病组”。研究人员生成了269个分析案例集,对应于所有不同的特定疾病和疾病亚组,并将信息存储在Rareservoir中(图1a)。
随后,研究团队利用BeviMed在Rareservoir中获得了19663个蛋白质编码基因和269种罕见疾病类别之间的后验关联概率(PPA)。PPA是通过对所有关联模型的后验概率求和得到的。具有最大后验概率的关联模型决定了推断的遗传模式和病因突变的类别。使用PPA>0.95的显著性阈值,研究人员最终确定了260个显著关联,其中241个是已知的遗传关联,证明了BeviMed推断的准确性。通过分析,研究人员注释了具有高、中或低水平的罕见疾病因果关系的基因目录(图1b)。
图1. 100KGP的BeviMed分析。来源:Nature Medicine
利用BeviMed在Rareservoir中进行分析发现:
红细胞转化特异性(ETS)家族转录因子编码基因ERG的功能缺失突变导致原发性淋巴水肿;
截断转化生长因子-β调节因子PMEPA1最后一个外显子突变导致Loeys-Dietz综合征;
原发性淋巴水肿是由淋巴管发育异常或淋巴功能衰竭引起的一组遗传疾病。研究人员利用BeviMed在100KGP中发现了四个携带ERG功能缺失突变的家系(图2a),确定了ERG中的高影响突变与原发性淋巴水肿之间的显性遗传关联。此前,人们关于ERG对淋巴发育的贡献,以及原发性淋巴水肿如何由ERG蛋白不同部分的功能丧失所引起知之甚少。通过原代人真皮淋巴内皮细胞、人脐静脉内皮细胞(HUVEC)以及小鼠耳皮肤模型试验,研究团队证实了淋巴管内皮细胞核内高水平的ERG表达与淋巴管生成过程中的转录调节功能一致。研究团队认为,在原发性淋巴水肿病例中,淋巴管生成缺陷可能是由于细胞核内ERG蛋白可用性降低造成的,这是由于无义介导的衰变或定位错误引起的单倍性不足所致。
图2. ERG功能缺失突变是原发性淋巴水肿的原因。来源:Nature Medicine
图3. PMEPA1截断突变导致Loeys-Dietz综合征。来源:Nature Medicine
图4. GPR156功能缺失突变会导致隐性先天性听力损失。来源:Nature Medicine
医疗保健系统中基因组测序的标准化,以及遗传和表型数据处理和统计分析的强大框架,有望推动未知病因罕见病的研究与治疗。该研究开发了一种轻量级且易于部署的关联数据库Rareservoir,并使用BeviMed方法对100KGP中的罕见疾病进行遗传分析,确定了260个遗传关联,其中241个是已知的,错误发现率的上限为7.3%。相比之下,近期相关研究报道的错误发现率上限为70%,表明BeviMed方法在给定灵敏度的条件下具有更大的特异性。在19个以前未确定的遗传关联中,研究人员对其中3个进行了复制和验证。这三种病因涉及的基因以前没有涉及到任何相关人类疾病。Rareservoir提供了一个轻量级、灵活的系统,用于研究大型罕见疾病队列所需的遗传和表型数据。
但该研究仍存在局限性。100KGP参与者主要为欧洲血统,限制了识别其他祖先群体特有致病突变的能力。同时,研究人员只考虑了编码基因中的SNV和indel。探索结构变异、非编码基因和调控元件的罕见突变可能有助于进一步确定病因。此外,该研究集中分析了罕见疾病的单基因模型,但单基因疾病临床表现的重要变化可以用多基因效应来解释。这些限制指出了未来研究的多种有希望的途径,以揭示罕见疾病的未知遗传决定因素。
Greene, D., Genomics England Research Consortium, Pirri, D., Frudd, K., Sackey, E., Al-Owain, M., ... & Turro, E. (2023). Genetic association analysis of 77,539 genomes reveals rare disease etiologies. Nature Medicine, 1-10.
https://www.nature.com/articles/s41591-023-02211-z
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!