近期,求臻医学首席科学家李蔚教授在Nature Genetics(IF=38.33)、Genome Research(IF=9.043)发表科研成果,分别从组织水平与单细胞水平证明了APA关联遗传位点(3′QTLs)对于细胞正常生理过程及疾病发生发展的重要作用。3′QTLs分析可解释与遗传相关的绝大多数疾病,包括肿瘤、阿尔兹海默及糖尿病等;独创的scDaPars算法可以精细划分单细胞亚群。
求臻医学首席科学家李蔚教授开创性地提出,位于基因的3′非翻译区(3′UTR)的选择性多聚腺苷酸化(APA)关联的遗传变异位点(3′aQTL)可以解释约16.1%的人类复杂疾病和性状差异,这将为解读功能性非编码区遗传变异(SNP)提供重要理论依据。该研究对3′aQTL遗传变异的分子机理和与复杂疾病的关联进行了系统分析,为揭示人类复杂疾病的分子机制发挥了重要作用。目前,相关研究成果已在线发表于国际顶级学术期刊Nature Genetics(影响因子:38.33),文章题为“An atlas of alternative polyadenylation quantitative trait loci contributing to complex trait and disease heritability”。
虽然全基因组关联研究(GWAS)已经发现了数千种与数量性状和常见疾病相关的SNP位点。然而,绝大多数变异(近90%以上)位于非编码区,阐明这些变异的分子机制十分困难。传统上,研究人员常用表达数量性状(eQTLs)或可变剪切数量性状(sQTLs)来解释分子机制,虽然少量非编码SNP确实与相邻基因表达相关,但大部分与性状相关的非编码SNP的功能尚不清楚。
选择性多聚腺苷酸化(APA)是一种重要的前体RNA加工机制,广泛存在于所有真核生物中。通过在RNA 3′UTR不同位置上添加polyA尾巴,可以选择性地调节3′UTR的长短。由于3′UTR含有多种顺式调控元件,例如:miRNA或RNA结合蛋白(RBP)结合位点,因此,APA可以通过调控3′UTR的长度,影响目标mRNA的稳定性和翻译效率以及翻译后蛋白质的细胞定位,进而精细调节基因表达,对一系列细胞过程(如增殖、分化和肿瘤发生)产生根本性的影响。
虽然APA发生在大约70%的人类基因中,但是缺乏APA事件与疾病风险和复杂的人类性状表型之间的广泛关联分析,并且非编码SNP在不同人体组织中与APA及其表型特征和疾病的关系有待揭示。
为了系统研究非编码SNP在不同人体组织中与APA及其表型特征和疾病的关系,李蔚教授团队应用DaParsV2.0算法,基于来自467个个体,46种组织的8,722套RNA-seq与配套全基因测序数据,绘制非编码SNP与APA事件关联图谱。共鉴定到40万余个遗传变异与11,613个基因的APA事件相关,占所有已注释基因的51%。这些与APA相关的数量性状被定义为3′QTLs。这些经鉴定的相关基因,部分已被前期的研究阐明,但绝大多数基因与3′QTLs的关系未被报道,其中不乏一些具有重要意义的基因,例如在神经发育中起重要作用的CHURC1基因;与过敏性肠综合征相关的TPSAB1基因等。研究发现,3′QTLs可以解释平均25.2%的APA变异,16.2%的APA基因表达改变。
接下来,研究团队运用多元自适应收缩(MASH)评估了3′QTLs的组织分布。根据聚类结果,可以将46种组织划为脑组织与非脑组织。这些模式揭示了由于APA的调节形成不同组织间发育和功能的相似性。此外研究还发现,虽然78.4%的组织间3′aQTLs具有相同的位点特征,但只有13.9%的3′aQTLs表现出相似的程度特征。85%组织间eQTLs具有相同位点特征,36%表现出相似的程度特征。以上结果表明3′aQTLs比eQTLs具有更强的组织特异性。
为进一步探究3′aQTLs分子表型机制,研究团队从polyA模体、RNA二级结构和RNA结合蛋白(RBP)结合位点改变方面进行了分析。研究表明,部分3′aQTLs通过改变经典polyA信号序列(PAS)的方式影响APA。还有一些可以通过改变AU、GU和尿嘧啶富集元件的方式影响APA。通过分析riboSNitch数据与3′aQTL关联,发现3′aQTLs与RNA二级结构变异具有强相关性。研究人员应用CLIP-seq鉴定了73个RBP更倾向于结合含有3′aQTLs区域。其中,肿瘤抑制因子LARP4经过一系列实验验证发现其参与了APA调节,并且3′aQTLs可以通过影响LARP4对其位点的结合影响APA。以上结果揭示了3′aQTLs的分子表型机制,并提示3′aQTLs分析可以作为全新APA调节因子的发现工具。
最后,李蔚教授团队分析了3′aQTLs与疾病风险的关系。通过关联分析23种常见人类疾病与表型相关SNP和3′aQTLs,鉴定了11.5%的组织特异的性状中富含3′aQTL变异。值得注意的是,3′aQTLs在解释与溃疡性结肠炎、原发性胆管炎和阿尔茨海默病等多种自身免疫性疾病相关的遗传性方面尤其有效。
DaPars鉴定的3′QTLs适用于与遗传相关的绝大多数疾病,不仅可以作为生物标志物预测疾病风险,由于具有组织特异性,3′QTLs相关基因还可以作为潜在的药物靶点,实现逆向转化研究,即从人群大数据出发——发现靶点——体外验证——应用于临床。该研究从组织水平证明了,APA对于细胞正常生理过程及多种重大遗传相关疾病发生发展的重要作用,对解释人类复杂疾病风险易感位点有着重要的推动作用,为揭示人类复杂性状和疾病病因学提供了新的方向。
与此同时,李蔚教授首创性开发了一种可分析标准单细胞RNA测序数据(scRNA-seq)多聚腺苷酸化(APA)事件的算法——scDaPars。scDaPars算法在DaPars算法基础上,有能力识别传统基因表达分析所不能区分的细胞亚群;采用了一种回归模型,能够在相关细胞之间分享APA信息;在处理有噪声的scRNA-seq数据时,解决了相关序列稀少的问题,在细胞亚群鉴定方面具有相当强的抗干扰能力(鲁棒性)。目前,该文章在线发表于国际重要科技期刊Genome Research(影响因子:9.043)上。
该研究首先测试了算法识别单细胞中近端polyA位点的能力。scDaPars可以在scRNA-seq数据中预测出84% bulk数据中的polyA位点;并且66.2%的预测位点与数据库中注释位点一致。通过模体分析,在预测polyA位点上游100 bp内鉴定出经典PAS序列,相关度P=1.2×10-44。表明scDaPars在预测polyA位点时具有高度准确性。
利用模拟数据进行数据截取,在有效数据量下降的情况下,scDaPars依然可以将细胞亚群清晰的分开,即使数据量降低70%的情况下,分类AUC大于0.75,显示出scDaPars识别APA事件的强大能力。
利用scDaPars分析真实乳腺癌Smart-seq2的单细胞数据,发现与正常细胞相比,肿瘤细胞3′UTR显著缩短,并且依靠APA事件可以将肿瘤与非肿瘤细胞明显分开。肿瘤细胞不仅被scDaPars分到患者特异性簇中,还进一步被分为不同的分子亚群,证明了肿瘤间和肿瘤内亚型间存在APA异质性。不同的是,非肿瘤细胞主要根据其细胞类型(B细胞、髓细胞和T细胞)而不是患者进行聚集。
这一结果不仅证实了动态APA事件是免疫细胞的细胞类型特异性特征,而且表明在肿瘤细胞中观察到的患者特异性APA谱不太可能是由于患者样本中的批次效应造成的,而是反映了真实的肿瘤间APA变异。此外,与先验知识一致的是,该算法可以将B细胞分为两个亚群,而只应用基因表达算法无法完成亚群的鉴定,说明scDaPars可以改善单细胞亚群分类的效果。
APA模式与细胞分化高度相关,为了验证scDaPars算法是否可以鉴定到仅靠基因表达谱无法区分的新细胞亚群,求臻医学科研团队分析了人内胚层发育6个不同时间点的758个单细胞测序数据。scDaPars算法的确可以鉴别出新的细胞亚群,例如,分化96小时的细胞被分为两个以前未被确认的亚群——通过分析两个亚群之间的APA和基因表达,发现单独使用APA可以准确地将两个亚群分开。仅使用基因表达谱无法区分这两个亚群,表明scDaPars算法的优越性。
scDaPars使我们能够在转录后APA水平上了解细胞异质性,且来自单细胞的APA信息,有助于识别传统基因表达分析所不能区分的细胞亚群。求臻医学首席科学家李蔚教授分别从不同水平不同角度证明了APA对于细胞正常生理过程及疾病发生发展的重要作用。以APA为表型的3′QTLs适用于与遗传相关的绝大多数疾病。
李蔚教授表示:”通过3′QTLs分析已经成功预测到一个与前列腺癌发生高度相关的驱动基因,抑制该基因阻碍肿瘤进展的同时不影响正常组织,有望成为理想的用药靶点,相关研究成果将在不久之后将与大家见面。与此同时,求臻医学将利用3′QTLs分析技术,推动自身对于疾病风险预测的理解与解读能力的进步,并助力发现全新疾病相关靶点,为后期药企合作奠定基础。”
李蔚教授团队,多年来专注APA领域基础研究,在过去几年里做出了一系列原创性的发现:
- 2014年,李蔚教授团队开发了首个从传统RNA-seq数据里直接分析APA的生物信息算法DaPars(Nature Communications 2014);同年发现了CFIm25蛋白通过广泛调控APA,抑制胶质母细胞瘤发生发展(Nature 2014)。
- 2018年, 李蔚教授团队报道了在乳腺癌中APA调控的3′UTR缩短(Nature Genetics 2018),破坏了竞争性内源RNA的信号交互,导致了抑癌基因的反式抑制效应。
- 2020年,李蔚教授团队发现肿瘤异常表达MAGE-A11泛素连接酶,干扰CFIm25对于APA的调控作用,导致肿瘤细胞广泛的3′UTR缩短,调节紊乱,为理解肿瘤形成提供了新的证据(Molecular Cell 2020)。
李蔚教授
求臻医学联合创始人&首席科学家,美国加州大学(尔湾)终身教授,讲席教授(Endowed Chair)
主要研究方向:设计和应用生物信息学算法来评估肿瘤等疾病发生发展过程中的全局调控机制,在大规模基因组数据及表观遗传学数据分析方面有着坚实的基础。参与完成人类基因组计划,主导完成了中国第一个微生物基因组计划等重大项目。所开发的BSMAP、RSeqQC等算法,目前已成为Bisulfite-seq、RNA-seq数据分析等多个生信领域的标准算法。现已在高影响因子期刊上发表超过190篇论文,其中23篇作为通讯作者发表在Nature、Science、Cell系列刊物(包括子刊),H-index 高达80(发表的论文中有80篇引用超过80次)。
求臻医学首席科学家李蔚教授研究团队
诚招博士后2名
通过表观遗传的大规模数据挖掘来解释肿瘤等人类复杂疾病
1.获得与生物信息学相关的博士学位;
2.具有分子生物学、肿瘤学研究背景,从事过肿瘤表观遗传学工作的人员优先;
3.博士期间,以第一作者发表过涉及生物信息分析内容的SCI论文;
4.具有良好的团队合作与沟通能力,以及较强的中英文写作能力。
目前,李蔚教授已有6位学生在美国一流研究型大学(包含哈佛医学院、匹兹堡大学和梅奥诊所),获得独立PI的教授职位,2位学生已获得中国国家青年千人学术头衔。详情可参见:https://sites.uci.edu/weililab/。
参考文献:
1.Consortium, G. T. et al. Genetic effects on gene expression across human tissues. Nature 550, 204-213, doi:10.1038/nature24277 (2017).
2.Gao, Y., Li, L., Amos, C. I. & Li, W. Analysis of alternative polyadenylation from single-cell RNA-seq using scDaPars reveals cell subpopulations invisible to gene expression. Genome research, doi:10.1101/gr.271346.120 (2021).
3.Li, L. et al. An atlas of alternative polyadenylation quantitative trait loci contributing to complex trait and disease heritability. Nature genetics, doi:10.1038/s41588-021-00864-5 (2021).
4.Masamha, C. P. et al. CFIm25 links alternative polyadenylation to glioblastoma tumour suppression. Nature 510, 412-416, doi:10.1038/nature13261 (2014).
5.Mayr, C. Regulation by 3'-Untranslated Regions. Annual review of genetics 51, 171-194, doi:10.1146/annurev-genet-120116-024704 (2017).
6.Mayr, C. What Are 3' UTRs Doing? Cold Spring Harbor perspectives in biology 11, doi:10.1101/cshperspect.a034728 (2019).
7.Park, H. J. et al. 3' UTR shortening represses tumor-suppressor genes in trans by disrupting ceRNA crosstalk. Nature genetics 50, 783-789, doi:10.1038/s41588-018-0118-8 (2018).
8.Pickrell, J. K. Joint analysis of functional genomic data and genome-wide association studies of 18 human traits. American journal of human genetics 94, 559-573, doi:10.1016/j.ajhg.2014.03.004 (2014).
9.Urbut, S. M., Wang, G., Carbonetto, P. & Stephens, M. Flexible statistical methods for estimating and testing effects in genomic studies with multiple conditions. Nature genetics 51, 187-195, doi:10.1038/s41588-018-0268-8 (2019).
10.Xia, Z. et al. Dynamic analyses of alternative polyadenylation from RNA-seq reveal a 3'-UTR landscape across seven tumour types. Nature communications 5, 5274, doi:10.1038/ncomms6274 (2014).
11.Yang, R. et al. La-related protein 4 binds poly(A), interacts with the poly(A)-binding protein MLLE domain via a variant PAM2w motif, and can promote mRNA stability. Molecular and cellular biology 31, 542-556, doi:10.1128/MCB.01162-10 (2011).
12.Yang, S. W. et al. A Cancer-Specific Ubiquitin Ligase Drives mRNA Alternative Polyadenylation by Ubiquitinating the mRNA 3' End Processing Complex. Molecular cell 77, 1206-1221 e1207, doi:10.1016/j.molcel.2019.12.022 (2020).
13.Brennecke, P. et al. Accounting for technical noise in single-cell RNA-seq experiments. Nature methods 10, 1093-1095, doi:10.1038/nmeth.2645 (2013).
14.Chu, L. F. et al. Single-cell RNA-seq reveals novel regulators of human embryonic stem cell differentiation to definitive endoderm. Genome biology 17, 173, doi:10.1186/s13059-016-1033-x (2016).
15.Chung, W. et al. Single-cell RNA-seq enables comprehensive tumour and immune cell profiling in primary breast cancer. Nature communications 8, 15081, doi:10.1038/ncomms15081 (2017).
16.Elkon, R., Ugalde, A. P. & Agami, R. Alternative cleavage and polyadenylation: extent, regulation and function. Nature reviews. Genetics 14, 496-506, doi:10.1038/nrg3482 (2013).
17.Gao, Y., Li, L., Amos, C. I. & Li, W. Analysis of alternative polyadenylation from single-cell RNA-seq using scDaPars reveals cell subpopulations invisible to gene expression. Genome research, doi:10.1101/gr.271346.120 (2021).
18.Gruber, A. J. & Zavolan, M. Alternative cleavage and polyadenylation in health and disease. Nature reviews. Genetics 20, 599-614, doi:10.1038/s41576-019-0145-z (2019).
19.Kim, N., Chung, W., Eum, H. H., Lee, H. O. & Park, W. Y. Alternative polyadenylation of single cells delineates cell types and serves as a prognostic marker in early stage breast cancer. PloS one 14, e0217196, doi:10.1371/journal.pone.0217196 (2019).
20.Li, L. et al. An atlas of alternative polyadenylation quantitative trait loci contributing to complex trait and disease heritability. Nature genetics, doi:10.1038/s41588-021-00864-5 (2021).
21.Li, W. V. & Li, J. J. An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nature communications 9, 997, doi:10.1038/s41467-018-03405-7 (2018).
22.Sandberg, R., Neilson, J. R., Sarma, A., Sharp, P. A. & Burge, C. B. Proliferating cells express mRNAs with shortened 3' untranslated regions and fewer microRNA target sites. Science 320, 1643-1647, doi:10.1126/science.1155390 (2008).
23.Shulman, E. D. & Elkon, R. Cell-type-specific analysis of alternative polyadenylation using single-cell transcriptomics data. Nucleic acids research 47, 10027-10039, doi:10.1093/nar/gkz781 (2019).
24.Tian, B. & Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature reviews. Molecular cell biology 18, 18-30, doi:10.1038/nrm.2016.116 (2017).
25.Velten, L. et al. Single-cell polyadenylation site mapping reveals 3' isoform choice variability. Molecular systems biology 11, 812, doi:10.15252/msb.20156198 (2015).
26.Xia, Z. et al. Dynamic analyses of alternative polyadenylation from RNA-seq reveal a 3'-UTR landscape across seven tumour types. Nature communications 5, 5274, doi:10.1038/ncomms6274 (2014).
27.Ye, C. et al. scDAPA: detection and visualization of dynamic alternative polyadenylation from single cell RNA-seq data. Bioinformatics 36, 1262-1264, doi:10.1093/bioinformatics/btz701 (2020).