科研

首页 - 全部文章 - 科研 - 北京大学高歌团队成功构建高质量人类lncRNA参考注释集丨Nucleic Acids Research

北京大学高歌团队成功构建高质量人类lncRNA参考注释集丨Nucleic Acids Research

长链非编码RNA(Long noncoding RNAs,lncRNA)一般指长度大于200bp且不具有编码蛋白质功能的RNA(1,2)。lncRNA是一类重要的调控分子,在机体发育和疾病发展(3)等多种过程中发挥着重要的调控作用,有望成为药物靶标和疾病诊断的标志物(4)。尽管此前报道的人类lncRNA数量很多,但各个lncRNA参考注释集合之间存在很大差异,目前人类lncRNA注释还不完整。随着研究的深入,完整且高质量人类lncRNA参考注释集的长期缺位已经阻碍了研究人员对lncRNA转录调控系统结构与功能的深入理解

日前,北京大学生物医学前沿创新中心(BIOPIC)、生物信息中心(CBI)暨北京未来基因诊断高精尖创新中心(ICG)高歌课题组通过整合大量样本资源,基于RNA-Seq数据成功构建了高质量的人类lncRNA参考注释集:RefLnc(Reference catalog of LncRNA, http://reflnc.gao-lab.org/)

RefLnc整合了来自30个人类正常组织、2个细胞系和18个肿瘤的14,166个样本的poly-A + RNA-Seq信息在正常组织中鉴定了27,520个新lncRNA(图1),显著扩展了目前人类lncRNA注释集。在此基础上,RefLnc系统注释了lncRNA在人类正常和癌症组织中的表达特征并在全基因组范围探索了lncRNAs的生理功能和临床意义,为后续功能研究提供了重要的数据基础与线索。

图1:RefLnc极大地扩展了人类lncRNA注释集。(A)来自GTEx的7,849个RNA-Seq样本被用于拼接转录本,其涵盖30个人类正常组织和两个细胞系。(B)来自TCGA中18个肿瘤的6,317个样本被用于分析转录本在肿瘤中的表达特性。(C)当RNA-Seq样本量接近4,700时,拼接出来的新转录本数量接近饱和。每个数据集包括所有类型的组织、性别和种族。(D)鉴定lncRNA的流程。(E)新lncRNA的转录本可靠分数(TCS)高于注释lncRNA。(F)RefLnc注释集含有77,900个lncRNA,包括经过验证的注释lncRNA和新lncRNA,并且83.6%的新lncRNA位于基因间区。

在RefLnc中,与先前的报道一致,lncRNA与mRNA相比,转录本更短、外显子更少、GC含量更低、表达水平更低、剪切效率更低、保守性更低,且组织表达特异性更高(图2)。研究团队还鉴定了75个新lincRNA在性别间差异表达(FDR<0.05)、132个表达与年龄相关(FDR <0.001),及70个在种族间差异表达(FDR <0.05)(图2)。其中,具有种族差异的lincRNA更倾向于在脑和睾丸中表达。此外,研究团队还发现160个新lincRNA与基因间区SNP位置重叠。

图2:RefLnc中lncRNA的特征。(A)lncRNAs的保守性低于mRNA。(B)lncRNA的表达水平低于mRNA的表达水平。(C)lncRNA可变剪接效率比蛋白质编码基因更低。(D)lncRNA的表达组织特异性比mRNA更高。(E)性别差异表达的新lincRNA(G)与年龄相关的新lincRNA MSTRG.31492.1在正常样本中的表达模式。(H)种族差异表达的新lincRNA(I)新lincRNA MSTRG.19068.1在肿瘤和正常组织间的差异表达模式,其与甲状腺癌风险相关的SNP位置重叠。

通过分析TCGA中18个肿瘤组织的6,317个样本,研究团队共鉴定了2,163个在肿瘤和正常组织之间差异表达的新lincRNA,且肿瘤特异性表达的新lincRNAs比例远高于注释lncRNAs和mRNA(图3)。此外,该工作鉴定了与临床结果(例如肿瘤转移、复发、临床分期和生存率等)相关的新lincRNA(图3C)。例如,180个新lincRNA与脑肿瘤患者的总体存活时间相关,其中约一半(47.2%,76/161)在独立胶质瘤样本中成功验证。

图3:鉴定与肿瘤相关的新lincRNA。(A)肿瘤中上调的新lincRNA。(B)肿瘤中下调的新lincRNA。(C)临床相关的新lincRNA。(D)MSTRG.18808.1在肿瘤和正常组织间差异表达模式。(E)MSTRG.18808.1的表达与脑肿瘤患者存活率相关。(F)MSTRG.18808.1的表达与肾肿瘤患者存活率相关。

相关研究于当地时间2019年8月6日在线发表于核酸研究领域顶级期刊Nucleic Acids Research,论文题为“An expanded landscape of human long noncoding RNA”博士生降帅、程斯进为共同第一作者,高歌研究员为通讯作者。任立晨、王倩、亢雨笺、丁阳、侯玫、杨晓旭、林媛和梁楠等合作者在文章写作、实验验证、数据分析方面提供了大力支持。

原文链接:

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz621/5539882#138420864

RefLnc在线网站:

http://reflnc.gao-lab.org/

参考文献:

1.Kapranov, P., Cheng, J., Dike, S., Nix, D.A., Duttagupta, R., Willingham, A.T., Stadler, P.F., Hertel, J., Hackermuller, J., Hofacker, I.L. et al. (2007) RNA maps reveal new RNA classes and a possible function for pervasive transcription. Science, 316, 1484-1488.

2.Mattick, J.S. and Rinn, J.L. (2015) Discovery and annotation of long noncoding RNAs. Nature structural & molecular biology, 22, 5-7.

3.Batista, P.J. and Chang, H.Y. (2013) Long noncoding RNAs: cellular address codes in development and disease. Cell, 152, 1298-1307.

4.Wahlestedt, C. (2013) Targeting long non-coding RNA to therapeutically upregulate gene expression. Nature reviews. Drug discovery, 12, 433-446.

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章