科研

首页 - 全部文章 - 科研 - Nat Biotechnol | 新方法有效消除文库大小、肿瘤纯度和批次效应对RNA-seq数据分析的影响

Nat Biotechnol | 新方法有效消除文库大小、肿瘤纯度和批次效应对RNA-seq数据分析的影响

导读

转录组测序(RNA-seq)数据分析的一个重要步骤是数据的归一化,使样本内、样本间的基因表达具有可比性。在癌症RNA-seq数据中,样本内归一化应根据基因长度、GC含量和细胞组成进行调整;样本间归一化处理应消除文库大小、肿瘤纯度和批次效应对数据的影响。文库大小、肿瘤纯度和批次效应等不同因素导致的基因表达变化会产生无关变异,其存在会模糊真实的生物学信号,可能导致误导性的生物学结论。目前,有效地从RNA-seq数据中去除这些无关变异的影响仍是一个挑战。
近日,澳大利亚沃尔特和伊丽莎·霍尔医学研究所(WEHI)的研究团队在Nature Biotechnology发表了题为“Removing unwanted variation from large-scale RNA sequencing data with PRPS”的文章。研究团队提出了一种称为伪样本伪复制(pseudo-replicates of pseudo-samples, PRPS)的方法,将其与Removing Unwanted Variation III(RUV-III)进行整合(RUV-III-PRPS),可以有效地消除RNA-seq数据中文库大小、肿瘤纯度和批次效应的影响。RUV-III方法是该团队前期提出的一种线性模型,可以通过技术复制和阴性对照基因推断已知和未知不良因素的存在及影响。PRPS方法克服了RUV-III在没有合适的技术重复或需要从癌症RNA-seq数据中去除由于肿瘤纯度引起的变异检测差异等情况下的局限性。

研究团队使用来自TCGA的三个RNA-seq数据集对RUV-III-PRPS方法进行性能评估。结果显示,其能够标准化多个RNA-seq研究,并获得有意义的生物学结果。

文章发表在Nature Biotechnology

主要研究内容

研究团队从TCGA数据库约11,000个肿瘤和正常样本组织中生成了RNA-seq数据,共包含33种癌症类型。TCGA RNA-seq数据集以原始基因计数、每千个碱基的转录每百万映射reads的片段数(FPKM)和FPKM的上四分位数标准化(FPKM.UQ)形式提供。研究团队首先对TCGA RNA-seq数据集进行计算、分析,发现因文库大小、肿瘤纯度、批次效应等造成的基因表达变化是无关变异数据的主要来源,无论是原始还是标准化的TCGA RNA-seq数据集都受其影响
随后,研究团队使用直肠腺癌(READ)、结肠腺癌(COAD)和乳腺浸润性癌(BRCA)的RNA-seq数据集分析了无关变异对下游分析的影响,并证实了RUV-III-PRPS在这些数据集中应用的性能和有效性。

图1. TCGA RNA-seq数据集无关变异的来源分析。来源:Nature Biotechnology

在TCGA READ RNA-seq数据集中,研究团队利用RUV-III的基因规范化能力,去除了文库大小对基因的影响。结果显示,RUV-III-PRPS方法有效消除了文库大小对TCGA READ RNA-seq数据的影响,能够生成更好的基因-基因共表达的下游分析以及基因表达与生存的关联

图2. READ RNA-seq数据上不同标准化方法的性能评估,来源:Nature Biotechnology

同时,上述分析显示,肿瘤纯度不同而造成的无关变异在TCGA和RUV-III归一化数据集中是高度相似的,证明RUV-III-PRPS方法能够去除用户希望删除的无关变异来源。此外,该研究还发现TCGA COAD RNA-seq数据受到与READ RNA-seq数据相同的无关变异的影响。与READ数据相比,COAD数据受到的影响较小

图3. READ RNA-seq数据使用不同标准化方法后的基因共表达分析。来源:Nature Biotechnology

在TCGA BRCA RNA-seq数据中,研究团队评估了PRPS消除肿瘤纯度以及其他因素(包括文库大小、流细胞化学和批次效应)对数据影响的性能,并使用TCGA微阵列数据作为正交数据,比较了不同归一化数据集中的基因表达模式及其相关性。对比结果表明,RUV-III标准化数据与微阵列数据的一致性远远优于两个TCGA标准化数据集

图4. RUV-III可从BRCA RNA-seq数据中去除肿瘤纯度和流动细胞化学变异。来源:Nature Biotechnology

结 语

为从RNA-seq数据中获得有意义的生物学结果,准确识别和有效去除不同因素产生的基因表达差异至关重要,特别是在大型、复杂的研究数据中。研究团队利用来自TCGA的RNA-seq数据,开发了一种名为RUV-III-PRPS的方法,能够有效去除文库大小、肿瘤纯度和批次效应对TCGA RNA-seq数据的影响。经验证,该方法可用于整合、规范来自多个实验室或平台的其他大型转录组数据集。

参考资料:

1. Molania, R., Foroutan, M., Gagnon-Bartsch, J.A. et al. Removing unwanted variation from large-scale RNA sequencing data with PRPS. Nat Biotechnol (2022).

2. Zhang, Y., Parmigiani, G. & Johnson, W. E. ComBat-seq: batch effect adjustment for RNA-seq count data. NAR Genom. Bioinform. 2, lqaa078 (2020).

3. Brueffer, C. et al. The mutational landscape of the SCAN-B real-world primary breast cancer transcriptome. EMBO Mol. Med. 12, e12118 (2020).

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:, ,

热评文章