大型的国际项目如TCGA,GTEx创造出了大量的转录组数据,为人们提供了数据挖掘、理解基因功能的机会。而如何能快速获取到这些生物大数据,从其中能够得到什么有价值的信息,是人们一直在探索的命题。为了让没有生物信息学背景的研究人员也能够轻易获取、分析生物大数据,北京大学张泽民教授实验室的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化,设计了癌症大数据可视化手机 APP GE-mini (gemini.cancer-pku.cn)以及癌症大数据分析网站GEPIA (gepia.cancer-pku.cn)。研究人员能够通过 GE-mini 和 GEPIA来提出问题或是验证假设。
高通量RNA测序(RNA-Seq)已经成为一个强有力的转录组分析方法,广泛应用于基因功能和模式生物研究、寻找候选药物靶点、识别疾病分类和诊断的生物标记物等领域。癌症基因组图谱(TCGA)和GTEx项目对数以万计癌症和非癌症样本进行了RNA-Seq,为包括癌症生物学在内的许多相关领域提供了前所未有的机会。TCGA项目中,除了726个癌旁正常组织的数据外,来自33种癌症类型的9736例肿瘤样本也进行了RNA-seq分析。GTEx项目产生的RNA-Seq数据包含超过8000例正常样本。由于存在一定的差异,这样的数据不能直接用于综合分析。为使来源不同的数据更为兼容,UCSC Xena项目(http://xena.ucsc.edu/)已基于标准流程重新计算所有表达的原始数据,成为了迄今为止最全面的表达数据。
一些分析工具,如Xena、cBioPortal 、HPA等,提供了一定程度的可视化和分析功能,也在被广泛使用,但没有充分解决实验生物学家需要的许多额外的表达分析功能。
唐泽方博士等人开发的GEPIA,满足了上述未得到充分解决的需求。GEPIA提供了关键的交互分析和定制功能,包括肿瘤/正常差异表达谱分析、剖面绘制、病理分期、患者生存分析,相似基因检测分析和降维分析。通过简单的点击GEPIA 就可以进行综合全面的表达分析,大大促进了研究领域内的数据挖掘、科学讨论和治疗的发现过程。GEPIA能够提供快速定制功能,填补了癌症基因组学大数据和为终端用户提供集成信息之间的缺口,从而帮助实现当前数据资源的价值。基于基因表达水平的生存分析也被广泛用于评估某一特定基因的临床重要性。此外,由于具有相似表达模式的基因可能具有相关功能,因此在需要识别与已知基因相似基因时,GEPIA的表现令人满意。
GEPIA网址:http://gepia.cancer-pku.cn/.
唐泽方博士
北京大学生命科学学院BIOPIC张泽民组博士四年级研究生
2014年加入北京大学生命科学学院BIOPIC张泽民实验组攻读博士学位,研究TCGA 癌症组织大数据与 GTEx 正常组织大数据的整合与数据挖掘。以通讯作者和一作身份在Bioinformatics杂志上发表癌症大数据可视化手机 APP GE-mini (gemini.cancer-pku.cn),以一作身份在Nucleic Acids Research杂志上发表癌症大数据分析网站GEPIA (gepia.cancer-pku.cn)。目前研究兴趣在于利用 TCGA 、GTEx大数据进行数据再挖掘。
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!