科研

首页 - 全部文章 - 科研 - From cell to sample:深圳人民医院程立新组提出单细胞转录组数据嫁接新方法scPAGE

From cell to sample:深圳人民医院程立新组提出单细胞转录组数据嫁接新方法scPAGE

单细胞RNA测序(scRNA-seq)技术的发展和应用促进了细胞水平转录组的研究,并积累了大量单细胞基因表达数据。机器学习在模式识别和数据挖掘领域有着出色的表现,利用机器学习算法对基因表达数据进行分析并获得基因表达特征,有助于疾病预测、诊断和靶向治疗。但机器学习算法对样本量的需求较高,而现有转录组学数据往往缺乏足够大的样本量,难以充分训练计算模型。
鉴于单细胞数据样本量大、能够反映基因表达多样性等特点,深圳市人民医院程立新课题组提出了一种转录组学数据嫁接的新方法——scPAGE,旨在利用单细胞数据的基因表达信息扩充样本空间,从而提高bulk数据的分类效果(图1)。近日,该研究成果发表在Briefings in Bioinformatics上,文章题为“Improving bulk RNA-seq classification by transferring gene signature from single cells in acute myeloid leukemia”。

图1. 方法流程示意图

由于单细胞基因表达数据往往存在稀疏(sparse)、dropout event与高噪音(noise)等特点,且单细胞数据与bulk数据间存在数据分布上的较大差异,scPAGE方法利用pairwise analysis of gene expression (PAGE),通过研究基因对(gene pair)的相对表达在疾病与正常单细胞中的不同模式来消除这些因素的影响,提取更为稳定的基因特征。在急性髓系白血病(acute myeloid leukemia,AML)数据的应用中,该团队提取到了一组包括30个基因对的表达特征(single-cell gene pair signature, scGPS)。这些基因对在AML与对照组中存在明显的表达模式差异(图2)。

图2. AML scGPS在疾病组与对照组上的表达模式差异

研究团队将上述scGPS应用于八个不同bulk数据集的分类中。在分类效果上,相对于传统基于差异基因(differentially expressed genes)的表达特征以及在bulk数据上提取的基因表达特征, scGPS在不同bulk数据集中都显示了较高的准确性

图3. AML scGPS与单细胞差异基因特征以及bulk基因特征的分类效果对比

为了验证scPAGE方法在其他疾病场景下的有效性,该团队进一步分析了脓毒症(sepsis)的单细胞数据,提取sepsis scGPS并应用于microarray数据的分类。结果显示,sepsis scGPS具有良好的分类效果以及较强的鲁棒性。此外,不同于AML 数据中单细胞基因特征普遍优于bulk基因特征的结果,在sepsis中,microarray差异基因特征优于单细胞差异基因特征。该结果更加体现了不同测序平台数据的差异与传统差异基因特征在特征转移(signature transfer)上的不足,以及scPAGE方法的优势。

图4.Sepsis scGPS与单细胞差异基因特征以及microarray基因特征的分类效果对比

综上所述,程立新团队提出了一种全新的数据嫁接方案,将单细胞基因特征应用于bulk数据分类,充分利用了单细胞数据的优势,提升了分类效果,实现了不同平台数据之间基因特征与生物信息的转移。

程立新课题组长期招聘博士后和研究助理,欢迎有识之士加入,共同进步和成长。

联系人:程老师,Email: easonlcheng@gmail.com

参考文献:

[1] Wang, R., Zheng, X., Wang, J., Wan, S., Song, F., Wong, M.H., Leung, K.S. and Cheng, L., Improving bulk RNA-seq classification by transferring gene signature from single cells in acute myeloid leukemia. Briefings in Bioinformatics (2022).

[2] Zheng, X., Leung, K.S., Wong, M.H. and Cheng, L., 2021. Long non-coding RNA pairs to assist in diagnosing sepsis. BMC Genomics (2021).

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章