非编码RNA(Non-coding RNA,ncRNA)是指不编码蛋白质的RNA,包括大量的调控性ncRNAs,例如microRNAs(miRNAs)、长非编码RNAs(lincRNAs)、反义RNAs(asRNAs)和环状RNAs(circRNAs)等被发现是人类发育和疾病(包括癌症)的潜在参与者。目前,对RNA特征调控机制和基因功能的研究主要依赖于小和多聚腺苷酸化的RNA转录组的分析,对非多聚腺苷酸化、环状转录物及其与其他RNA生物型关系仍待进一步系统探究。
近日,比利时根特大学医学遗传学中心Pieter Mestdagh研究团队在Nature biotechnology发了题为“The RNA Atlas expands the catalog of human non-coding RNAs”的研究文章。研究团队历经五年多的努力,利用三种互补的RNA测序技术,包括针对小RNA、多聚腺苷酸(polyA)RNA的测序技术和全RNA测序技术,分析了300种人类细胞和组织类型的转录组,报告了数千个此前未被鉴定的ncRNAs,包括一类新的非多聚腺苷酸单外显子基因和许多新的环状RNA,使ncRNAs数量增加了约8%,完善和扩展了人类ncRNAs及其调控相互作用的现有目录,提供了一个更全面的人类转录组图谱。
文章发表于Nature biotechnology
转录组的组装由Ensembl注释,包括已知和新组装的PCG、lincRNAs和asRNAs。大多数Ensembl和新组装的基因与转录起始位点(TSS)500个碱基对内的CAGE峰或相关染色质状态密切相关。该转录组由18962个PCG、18364个lincRNAs和7374个asRNAs组成。研究人员将RNA图谱基因集分类为Annotated、PreRep或RNA Atlas-only图谱,发现此前未在RNA图谱中预测和注释的lncRNA启动子分别为46%和49%。几乎所有的circRNA(98%)都来自PCG宿主。在小RNA测序分析中,研究人员确定了5213个候选miRNAs(图1)。
图1.RNA图谱转录组的产生和注释。来源:Nature biotechnology
大多数PreRep和RNA图谱仅lncRNAs是lincRNAs,其中大多数是单外显子基因。与多外显子lincRNAs和PCGs相似,单外显子lincRNAs的平均外显子搁浅率为96%。单外显子lincRNAs通常从转录组组件中移除,以防止污染DNA。研究人员通过双链RNA测序工作流程中的测序发现,单外显子lincRNAs不是来源于污染的DNA片段,表明RNA图谱中的单外显子lincRNAs并不是多外显子基因的片段。单外显子和多外显子RNA图谱仅基因显示几乎相同的表达分布。
大多数RNA图谱的基因是ncRNAs,该研究揭示了少数新的候选PCG,确定了104个未被注释的候选PCG,比已知PCG更具组织特异性,外显子更少,ORF长度更短(图2)。
图2.RNA图谱转录组记录了许多单个外显子lncRNAs,并显示了未注释的PCG。来源:Nature biotechnology
研究人员利用polyA和总RNA测序数据测试了RNA图谱基因的多聚腺苷酸化状态。结果发现,大多数PCG(93%)被归类为聚腺苷酸化。对于lincRNAs和asRNAs,多聚腺苷酸化基因的比例分别为48%和63%。值得注意的是,超过75%的RNA图谱和60%的PreRep单外显子lincRNAs被归类为非多聚腺苷酸化,聚腺苷化基polyA-minus/polyA 计数比聚腺苷化基因显著增高,表明整合polyA和总RNA测序数据可以发现非多聚腺苷酸化基因。
此外,研究团队鉴定了160个基因,包括83个PCG、36个lincRNAs和41个asRNAs。结果显示,其中57个基因可变的多聚腺苷酸化状态可能是由选择性多聚腺苷酸化亚型的差异表达驱动的,剩余的103个基因未表现出变化,表明可能是其他机制参与了多聚腺苷酸化的变化。
RNA图谱表达数据反映了转录组的一些既定特征,如非编码RNA表达特异性、印迹和肿瘤融合基因表达。分析发现,与非恶性细胞类型和组织相比,癌细胞系中mRNA融合基因呈现强烈富集。在RNA生物型丰度标准化后,ncRNAs的表达方式比PCG更具组织特异性。
研究人员对基因表达谱、RNA生物型和细胞亚型之间的关系进行了评估。基于PCG表达谱的聚类结果表明,密切相关的细胞类型具有相似的转录组。其中上皮细胞、内皮细胞、成纤维细胞和间充质细胞聚集在一起,不同于RNA图谱数据集中其他细胞类型的转录谱。以上结果表明,RNA图谱基因,包括miRDeep2-预测的候选miRNAs和单个外显子lincRNAs,显示出与样本本体关系密切相关的表达模式。此外,这些非随机表达模式也支持RNA图谱单外显子lincRNAs不是来自污染RNA测序库的DNA片段。
内含子和外显子的表达谱都可以准确地估计出总RNA谱中成千上万的RNA图谱转录物。为了进一步研究RNA图谱中转录和转录后调控的影响,研究人员收集了210个TFs和224个miRBase miRNA的TF和miRNA靶点。正如预期的那样,miRNA表达谱与靶mRNA/pre-mRNA比值(m/p比值)的相关性显著高于与靶pre-mRNA 和mRNA表达谱的相关性(图3)。表明总RNA转录组有助于利用内含子表达谱研究调控模式。
图3.总RNA转录组有助于利用内含子表达谱研究调控方式。来源:Nature biotechnology
随后,研究团队深入了解了lncRNA的功能,利用LongHorn推断RNA图谱lncRNAs下游的调控网络。通过基于ENCODE ChIP-seq47的TF-靶相互作用和基于序列分析的TF结合基序和MiRNA-靶相互作用(图4)。结果表明,所有的lncRNA生物型,包括单个外显子lncRNAs和非多聚腺苷酸化的lncRNAs,都能有效地改变TF和miRNA的调控。
图4.lncRNAs调控的证据。来源:Nature biotechnology
LongHorn对lncRNA调控模型的分析表明,circRNAs主要是转录后诱饵,其他lncRNAs主要调节转录(图5)。虽然不是所有circRNAs都是诱饵,但分析结果表明circRNAs在细胞质中富集,lncRNAs在细胞核中富集。在所研究的1221个外显子lncRNAs中,960(79%)被预测至少调节一种相互作用。同时,研究人员根据lncRNAs在hallmark通路中的富集程度以及作为转录或转录后调节剂的特异性对其进行了分类,发现总共有17条途径富含至少5个lncRNAs的靶点(图5),显示lncRNAs优先针对增殖和信号通路。
图5.lncRNA功能的解释。来源:Nature biotechnology
研究团队通过结合和比较不同测序方法的分析结果,能够确定每一个RNA转录物在不同细胞和组织中的丰度,分析其是否有polyA尾巴,是否呈线性或圆形等。该研究结合三种RNA测序技术发现了成千上万个新的ncRNA基因,扩展了RNA目录的范围,为生物医学研究提供了宝贵资源。该研究结果的所有数据、分析和结果都可以在R2门户网站(http://r2platform.com/rna_atlas)上下载和查询。
参考文献:
Lorenzi L, Chiu HS, Avila Cobos F, et al. The RNA Atlas expands the catalog of human non-coding RNAs [published online ahead of print, 2021 Jun 17]. Nat Biotechnol. 2021;10.1038/s41587-021-00936-1.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!