大约20年前,耗资30亿美元的人类基因组计划绘制出了首个人类基因组草图。随着这项规模宏大、影响深远的基因测序项目的落幕,许多研究者相信他们能够迅速找到导致糖尿病或精神分裂症等复杂疾病的基因。但是他们很快就陷入了僵局,部分原因在于当时的研究忽视了对控制基因在体内表达位置和方式的“开关系统”。例如,正是这种基因调控系统使心脏细胞有别于脑细胞,使肿瘤有别于健康组织。如今,通过将人类2万个编码蛋白质基因的活性水平与数百万条调控DNA序列的变异相关联,一项长达10年的大规模研究已经开始填补这一空白。
本周,“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium)结束了为期10年的多机构研究工作,于Science、Cell等期刊发布了斥资1.5亿美元的“基因型-组织表达项目”(The Genotype-Tissue Expression (GTEx) Project)最后一期共计15项研究成果,介绍了跨细胞类型和组织的遗传调控变异综合图谱,并分析了这些调控变化如何增加疾病风险和促进疾病特征的发展。据悉,本周发表的15篇最新论文基于GTEx V8版本数据集。研究人员对来自838名死亡捐赠者49个组织的15,201份样本进行了RNA测序,并分析了每个捐赠者的全基因组测序数据。整个研究使用的一种关键方法为基因表达数量性状位点(eQTL)分析,以鉴定影响基因表达的遗传变异以及分析剪接变异数量性状位点(sQTL);其中一篇论文还使用CRISPR分析了罕见病的调控变异。最终,共有五篇论文发表于Science,两篇发表于Science Advances,一篇发表于Cell,五篇发表于Genome Biology,一篇发表于Genetic Epidemiology,最后一篇发表于Genome Medicine。
图:GTEx v8研究样本及数据类型
正如前文所言,科学家们多年以来就意识到,基因组并不仅仅只是编码蛋白质的一系列遗传密码。它同时也是一块巨大的“开关板”,充满了可控制基因活性的DNA序列。事实上,基因组在调控方面的复杂性已极大地阻碍了研究者们对疾病遗传学基础的探索和靶向特定致病性DNA药物的开发。但近年来,一些大型研究也已聚焦于基因调控开关的位置、调控开关所控制的特定基因以及调控开关在体内激活或抑制基因活性的具体部位。
为了深入了解基因在人体中的表达方式以及调控方式,美国国立卫生研究院共同基金(NIH Common Fund)于2010年启动了“基因型-组织表达项目”(The Genotype-Tissue Expression (GTEx) Project),并在2013年提供了对GTEx数据资源访问的GTEx门户网站(http://www.gtexportal.org/home/)。当时,上百位科学家联名在Nature Genetics期刊发表文章介绍了GTEx项目,并成立了“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium)。目前,GTEx项目已经建立了一个数据资源和组织库,用于研究在多种人类组织和个体中遗传变异与基因表达之间的关系,以及男性和女性之间基因表达的差异。对于此类研究,研究人员往往需要获取大量人类器官的组织样本,但由于GTEx项目所需组织样本种类太多,因此研究人员将视线转移到短期逝世的个体中——这些死者的亲属将遗体捐赠出来用于研究。截至目前,GTEx项目已经从约960名捐献者中收集了多种人体组织(包括脑、心脏、肺、乳房、皮肤和全血等)和30,000多份样本。这些组织和样本由美国国家癌症研究所的人类癌症生物样本信息资源库代表GTEx项目进行存储。
GTEx项目获得了具体的基因调控情况,确定了当某基因附近200万个碱基范围内的DNA序列发生细微改变后会开启或者关闭哪些基因的表达。此外,GTEx项目也从每位捐赠者体内获取了多个组织的遗传物质,评估这些遗传物质之间的差异,从而详细记录基因调控序列在不同细胞类型中的影响范围——有的调控序列能够影响所有组织中某个基因的表达,而其他调控序列只会影响几种或一种组织内的基因表达情况。2015年,GTEx项目发布了第一个阶段性成果,在Science期刊上发表3项基因表达相关研究成果。随着研究的深入,GTEx项目进一步于2017年10月在Nature期刊发表了二期共计4项研究成果。目前,GTEx项目资源正在帮助研究人员了解癌症、心脏病、帕金森症和糖尿病等常见疾病的遗传易感性。
对于本次发布的最新研究成果,在Science的核心论文中,研究人员描述了其目标和方法,并强调了数据集中捐赠者祖先和性别的多样性。在838名捐赠者中,有715名(85.3%)为欧洲裔美国人,103名(12.3%)为非裔美国人,12名(1.4%)为亚裔美国人,16名(1.9%)为西班牙裔或拉丁裔;其中男性557名(66.4%),女性281名(33.5%)。研究人员指出,这些跨组织不同类型数据之间共享的高度相似模式表明,从细胞类型组成到转录组变异和遗传调控效应具有共享的生物学基础。这些结果表明,组织间共享的细胞类型可能是组织共享遗传调控作用的关键因素。在Science杂志发表的其他四篇论文中,研究人员还分别探讨了性别对人体组织基因表达的影响、跨组织基因表达的细胞类型特异性遗传调控、人类组织中端粒长度的决定因素,以及在人类组织中转录组特征中发现的功能性稀有遗传变异。另外,在发表于Science Advances的两篇文章中,研究人员分别分享了组织特异性遗传特征如何在临床试验中为药物副作用的预测提供信息,以及其开发的一种名为“PhenomeXcan”的资源,可通过转录组将基因组映射到表型组。而在发表于Cell的文章中,由斯坦福大学研究人员领导的小组则报告了人体的定量蛋白质组图谱。
图:GTEx最新研究总览
回顾GTEx项目的十年历程以及该联盟完成的工作,GTEx的共同负责人、纽约基因组中心人类遗传学家Tuuli Lappalainen表示,研究人员已经获得了大量了生物学知识,并且能够回答有关基因组功能的许多问题。“我认为GTEx在许多方面都履行了诺言。它提供了非常全面的数据。而且,这些年来的技术发展引入了回答这些问题的新途径和方法。”她还表示,在过去的10年中,GTEx数据可以通过门户网站广泛获取。与此同时,该联盟还向更大的研究团体授权以推动功能基因组学研究,为GWAS研究提供支持,并为疾病相关变异的潜在调控作用研究提供理解。癌症基因组学界也广泛使用GTEx来推动其研究,研究人员也在使用GTEx来寻找寻找特定基因剪接模式或变异的答案。她还补充说,尽管该GTEx目前已经发布了海量数据和大量论文,但仍有更多工作要做。例如,她计划研究将基因组和RNA测序数据以及表型数据结合起来的方法,以更好地了解疾病机制,并且还正在考虑研究环境因素和遗传因素的结合如何影响疾病风险。
随着GTEx项目的结束,据悉美国国立卫生研究院正在计划一项发育性GTEx研究,将招募20岁以下的志愿者来创建一个从出生到成年的基因表达图谱。研究人员表示,对于这样的后续项目,一个更加多样化的组织捐赠者群体将是非常有价值的。虽然GTEx项目一开始也是为了这个目标而努力的,但由于组织和器官捐赠者大多为白人,导致该愿景最终并未完全实现。到目前为止,虽然GTEx项目还不能完全说明基因组是如何驱动人类各种组织的产生或引发各类疾病。但研究人员预测,GTEx资源一定会被反复使用,并将产生一些他们无法预测的用途。
研究团队介绍了GTEx(v8)版本数据的分析,检测了来自838个死后捐赠者49个组织的15201个RNA测序样本。该研究全面表征了顺式和反式基因表达和剪接的遗传关联,表明几乎所有基因都存在调节关联,并描述了潜在的分子机制及其对等位基因异质性和复杂性状的多效性的贡献。
文章链接:
https://science.sciencemag.org/content/369/6509/1318.abstract
Determinants of telomere length across human tissues
研究团队表征了来自6391个组织样本端粒长度的变异性,这些样本代表了GTEx项目的20多个组织类型和952个个体。研究描述了不同组织类型之间的差异,以及组织类型之间的正相关以及与年龄和血统的关联,发现遗传变异可影响多种组织类型中的端粒长度,并且端粒长度可能介导年龄对基因表达的影响。
文章链接:
https://science.sciencemag.org/content/369/6509/eaaz6876
Transcriptomic signatures across human tissues identify functional rare genetic variation
确定稀有遗传变异的功能和表型影响是一项重大挑战。研究团队通过分析基因表达、等位基因特异性表达和多组织RNA测序数据的可变剪接,扩展了基因驱动的转录组异常检测,并证明了每种信号都可以指导稀有变异的独特分类。该研究结果将成千上万的稀有变异链接到各种分子效应,为将稀有变异影响转录组与人类特征相关联提供了证据。
文章链接:
https://science.sciencemag.org/content/369/6509/eaaz5900
Tissue-specific genetic features inform prediction of drug side effects in clinical trials
通过结合48个组织中的基因表达和eQTL,该研究评估了> 360000个英国生物库个体中1167个表型的全表型关联研究(PheWAS),以分析是否可在临床试验中预测药物副作用。研究确定了具有五个遗传特征的药物靶基因,包括基因表达的组织特异性。与没有这种特征的基因相比,其带来的副作用风险增加了2.6倍。该研究展示了来自多个组织的PheWAS和eQTL数据用于药物副作用预测的效用,并强调了组织特异性药物递送的需求。
文章链接:
https://advances.sciencemag.org/content/6/37/eabb6242
PhenomeXcan: Mapping the genome to the phenome through the transcriptome
PhenomeXcan是将来自GTEx(v8)49个组织的4091个性状转录组数据与GWAS研究统计数据中887万个变体整合的一个可查询基因平台,其中包括22515个基因。研究团队开发了一种新颖的贝叶斯共定位方法,即快速富集估计辅助共定位分析(fastENLOC),可先考虑可能的因果基因-性状关联。利用PhenomeXcan,研究团队提供了新的和未报告的基因与表型关联以及复杂的基因特征簇。PhenomeXcan(phenomexcan.org)为转录研究提供了对复杂数据的广泛及用户友好的访问。
文章链接:
https://advances.sciencemag.org/content/6/37/eaba2083
A Quantitative Proteome Map of the Human Body
研究团队从32个正常人体组织中超过12000个基因中定量了相对蛋白质水平。通过鉴定组织特异性或组织富集的蛋白质,并将其与转录组数据进行比较,许多普遍存在的转录本被发现可编码组织特异性蛋白质。RNA和蛋白质富集的差异揭示了分泌蛋白合成和作用的潜在位点。此外,该研究表明蛋白质组织富集信息可以解释遗传疾病的表型,而仅靠转录本信息是无法获得的。
文章链接:
https://www.cell.com/cell/fulltext/S0092-8674(20)31078-3
Primo: integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits
为全面解释已知的性状相关SNP如何影响复杂性状,研究团队提出了一种Primo方法,用于对来自不同细胞条件或研究的系列omics QTL汇总统计数据进行GWAS统计数据的综合分析。Primo方法可研究SNP与复杂和组学特征的关联模式。在含有已知易感位点的基因区域,Primo可进行条件关联分析,以解释连锁不平衡问题。Primo允许进行未知的异质性和样本相关性研究。
文章链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02125-w#auth-Lin_S_-Chen
sn-spMF: matrix factorization informs tissue-specific genetic regulation of gene expression
研究团队开发了一个受约束的矩阵分解模型sn-spMF,以学习组织共享的模式将其应用于GTEx项目的49个人体组织。学习因子(learned factors)可反映具有已知生物学相似性的组织,并识别可能介导组织特异性作用的转录因子。sn-spMF可在https://github.com/heyuan7676/ts_eQTLs获取。
文章链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02129-6
A vast resource of allelic expression data spanning human tissues
研究团队介绍并演示了从GTEx(v8)版本中生成的大量等位基因表达资源的实用性,其中包含15253个样本,覆盖54个人体组织,SNP级别的等位基因总计为4.31亿,单倍型水平的总量为1.53亿。此外,研究团队扩展了phASER工具,允许使用单倍型水平的等位基因数据估算顺式调节变体的效应大小。这是迄今为止最大的等位基因资源,且能够公开提供单倍型水平的等位基因数据。
文章链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02122-z
Impact of admixture and ancestry on eQTL analysis and GWAS colocalization in GTEx
研究团队在GTEx(v8)中识别了117个具有高度群体混合个体的子集,并估计了全基因组的局部祖源信息。在七个组织中使用混合样本进行全基因组顺-eQTL定位,并通过祖源信息进行调整。最后,该研究确定了与本地祖先高度相关的一部分eQTL变体。为GTEx(V8)版本中的混合个体提供了本地祖先图,并描述了祖先和混合物对基因表达,eQTL和GWAS共定位的影响。
文章链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02113-0
PTWAS: investigating tissue-relevant causal molecular mechanisms of complex traits using probabilistic TWAS analysis
研究团队提出了一种新的计算框架,即概率全转录组关联研究(PTWAS),以研究基因表达与复杂性状之间的因果关系。PTWAS应用工具变量分析的既定原则,利用概率eQTL注释来描述和解决TWAS中出现的独特挑战。PTWAS不仅具有比现有方法更高的功能,而且还提供了新颖的功能来评估因果关系假设,以及评估组织或细胞类型特异性基因对性状的影响。研究团队通过分析来自GTEx(v8)49个组织的eQTL数据和114个复杂性状的GWAS统计数据证明了PTWAS的强大功能。
文章链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02026-y
Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification
近年来,通过转录表达整合转录组学研究和GWAS研究已得到广泛应用,使得GWAS基因座的功能表征和因果基因的预测成为可能。但最佳的预测性能模型不一定会导致更可靠的因果基因发现。为在不增加假阳性的情况下改善目标基因的发现,研究团队使用GTEx项目中948个供体54个组织的17382个RNA测序样本的表达和剪接数据,开发并比较了多种转录组预测方法。研究发现,通过精细映射(dap-g)和跨组织借用信息(masher)来反映具有因果概率的预测模型可以在重要关联的数量和比例方面提供更好的性能。所有的预测模型都可以在predictdb.org上公开获得。
文章链接:https://onlinelibrary.wiley.com/doi/full/10.1002/gepi.22346
A polyclonal allelic expression assay for detecting regulatory effects of transcript variants
研究团队提出了一种利用CRISPR / Cas9检测基因变异在转录组中调节作用的实验方法,然后进行靶向测序。利用该检测方法,研究团队对整个基因组和两个孟德尔遗传病基因中的32个提前终止变异体,HEK293T细胞中的33个eQTL预测因果变异体和62个对照变异体进行了分析,并复制HeLa细胞中的一部分变异体。结果显示,该方法能够捕获eQTL变体以及提前终止变异体触发的无意义介导衰变的调节作用,表明该方法可用于验证遗传变异的转录组水平效应。
文章链接:
https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00777-8#article-info
参考资料:
1. ‘Invaluable’ database helps solve mystery of how genes are regulated
https://www.sciencemag.org/news/2020/09/invaluable-database-helps-solve-mystery-how-genes-are-regulated
2. GTEx Studies Provide Comprehensive Map of Genetic Regulatory Variation Across Cell Types, Tissues
https://www.genomeweb.com/genetic-research/gtex-studies-provide-comprehensive-map-genetic-regulatory-variation-across-cell#.X1rSiHot1PY
3. https://commonfund.nih.gov/GTex
4. https://commonfund.nih.gov/gtex
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!