研究团队使用来自TCGA的三个RNA-seq数据集对RUV-III-PRPS方法进行性能评估。结果显示,其能够标准化多个RNA-seq研究,并获得有意义的生物学结果。
文章发表在Nature Biotechnology
主要研究内容
图1. TCGA RNA-seq数据集无关变异的来源分析。来源:Nature Biotechnology
图2. READ RNA-seq数据上不同标准化方法的性能评估,来源:Nature Biotechnology
同时,上述分析显示,因肿瘤纯度不同而造成的无关变异在TCGA和RUV-III归一化数据集中是高度相似的,证明RUV-III-PRPS方法能够去除用户希望删除的无关变异来源。此外,该研究还发现TCGA COAD RNA-seq数据受到与READ RNA-seq数据相同的无关变异的影响。与READ数据相比,COAD数据受到的影响较小。
图3. READ RNA-seq数据使用不同标准化方法后的基因共表达分析。来源:Nature Biotechnology
在TCGA BRCA RNA-seq数据中,研究团队评估了PRPS消除肿瘤纯度以及其他因素(包括文库大小、流细胞化学和批次效应)对数据影响的性能,并使用TCGA微阵列数据作为正交数据,比较了不同归一化数据集中的基因表达模式及其相关性。对比结果表明,RUV-III标准化数据与微阵列数据的一致性远远优于两个TCGA标准化数据集。
图4. RUV-III可从BRCA RNA-seq数据中去除肿瘤纯度和流动细胞化学变异。来源:Nature Biotechnology
结 语
为从RNA-seq数据中获得有意义的生物学结果,准确识别和有效去除不同因素产生的基因表达差异至关重要,特别是在大型、复杂的研究数据中。研究团队利用来自TCGA的RNA-seq数据,开发了一种名为RUV-III-PRPS的方法,能够有效去除文库大小、肿瘤纯度和批次效应对TCGA RNA-seq数据的影响。经验证,该方法可用于整合、规范来自多个实验室或平台的其他大型转录组数据集。
参考资料:
1. Molania, R., Foroutan, M., Gagnon-Bartsch, J.A. et al. Removing unwanted variation from large-scale RNA sequencing data with PRPS. Nat Biotechnol (2022).
2. Zhang, Y., Parmigiani, G. & Johnson, W. E. ComBat-seq: batch effect adjustment for RNA-seq count data. NAR Genom. Bioinform. 2, lqaa078 (2020).
3. Brueffer, C. et al. The mutational landscape of the SCAN-B real-world primary breast cancer transcriptome. EMBO Mol. Med. 12, e12118 (2020).
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!