发表在Nature的文章报道了来自245388名All of Us参与者的临床级WGS数据,并展示了这种高质量数据在遗传和健康研究中的影响。这些研究数据已上传到All of Us Researcher Workbench云平台,在保护参与者隐私的前提下促进公平的数据和计算访问,以此推动该领域的发展。
该研究鉴定了约11亿种遗传变异,包括超过2.75亿种新的遗传变异,其中超过390万种为编码变异。通过将基因组序列与超过287,000人的电子健康记录数据、约413,370名参与者的调查信息、超过337,500人的身体数据以及312,925名All of Us参与者的基因分型图谱相结合,研究人员分析了与117种疾病相关的3,724种遗传变异。这促使研究人员深入分析了低密度脂蛋白(LDL)胆固醇背后的基因联系,并在LDL-C GWAS鉴定了20个完善的全基因组显著位点。此外,研究发现欧洲血统和非洲血统的参与者都有很高的复制率。
图:All of Us数据资源概况
同样发表在Nature的文章“Genetic drivers of heterogeneity in type 2 diabetes pathophysiology”,报道了2型糖尿病(T2D)的遗传研究成果。该研究由英国和德国研究人员领导的一个国际团队完成,收集了来自All of Us项目、百万退伍军人计划、日本生物银行以及美国和其他国家的大型研究工作的数据,深入研究了T2D的相关遗传因素,这一研究被称为T2D全球基因组计划。
2型糖尿病(T2D)是一种异质性疾病,通过多种病理生理过程和分子机制发展而来。为了描述不同祖先群体对这些过程的遗传影响,研究团队收集了来自六个祖先群体2,535,601个体(39.7%非欧洲血统)的全基因组关联研究(GWAS)数据,包括428,452例T2D病例。研究确定了1,289个具有全基因组意义的独立关联信号,这些信号映射到611个基因位点,其中145个基因位点未被报道过。
同时,该研究定义了8个不重叠的T2D信号簇,它们具有不同的心脏代谢特征关联特征。这些簇在开放染色质的细胞类型特异性区域有不同的富集,包括胰岛、脂肪细胞、内皮细胞和肠内分泌细胞。研究人员在另外279,552名不同血统的个体(包括30,288例T2D患者)中建立了集群特异性分区多基因评分,并分析了它们与T2D相关血管结果的相关性,并提出了与冠状动脉疾病和其他心脏代谢特征相关的T2D簇特有的多基因风险评分(PRS)。
研究结果表明,将多祖先GWAS数据与单细胞表观基因组学相结合,可以解开驱动T2D在不同人群中发展和进展的病因异质性。这可能为糖尿病的遗传护理提供一条途径,并为T2D GWAS研究结果的临床转化提供机会。
图:37种心脏代谢表型与8种T2D关联信号机制簇指数SNV的关联热图
研究团队分析了一组包含可操作的次要发现的73个基因数据。这些基因与遗传性乳腺癌、血色素沉着症、二脂血症和心肌病等相关。对来自98000多名All of Us参与者数据的初步分析结果显示,不同祖先群体之间的致病变异率存在差异。欧洲血统亚组显示出最高的总体致病性变异率(2.26%);其他血统组的致病性变异率较低,非洲血统亚组为1.62%,拉丁裔/混合美洲血统亚组为1.32%。此外,致病性变异最常见于与乳腺癌/卵巢癌或高胆固醇血症相关的基因。许多基因的变异频率与公共gnomAD数据库的数据一致,使用gnomAD子集解决了一些明显的例外。
图:祖先驱动的致病变异
为了计算特定疾病的得分,由国家人类基因组研究所资助的电子医疗记录和基因组学(eMERGE)网络开发了一个算法,对患有或未患有相应疾病个体的数千个基因组进行训练。然后,将一个人的遗传数据输入算法,可以计算出该个体的得分。研究人员将基于PRS的基因组信息风险评估作为临床研究的一部分返回给25,000名不同的成人和儿童。随后,研究团队开发了临床PRS实施的管道,利用来自All of Us项目队列的13,475名参与者的遗传多样性数据来训练和测试模型参数。
eMERGE网络在PRS开发方面的工作代表了在临床实践中实施基于PRS的风险评估(结合单基因检测和家族史的其他风险估计)的重要一步。
图:临床优先PRS的10种慢性病数据总结
参考资料:
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!