科研

首页 - 全部文章 - 科研 - NC/NC/NCS | 南开数院陈盛泉课题组在单细胞表观数据建模方面取得3项进展

NC/NC/NCS | 南开数院陈盛泉课题组在单细胞表观数据建模方面取得3项进展

单细胞表观基因组测序(如单细胞染色质开放性测序scATAC-seq)是阐明细胞表观异质性和解析基因调控机制的重要手段。然而,此类测序数据通常存在维度高(百万级)、噪声大、极度稀疏(超95%为零元素)、极度二值化、假阴性严重等特点,给细胞表观异质性刻画和下游分析带来了严峻挑战。为解决上述问题,南开大学数学科学学院陈盛泉课题组针对单细胞表观数据从信号增强、跨组学转换、离散嵌入表示等方面开展了系统性研究。

2024年2月22日,南开大学数学科学学院陈盛泉课题组在Nature Communications上在线发表题为“scCASE: accurate and interpretable enhancement for single-cell chromatin accessibility sequencing data”的研究论文[1],提出了一种名为scCASE的单细胞染色质开放性数据增强方法,被编辑推荐为人工智能和机器学习(AI and machine learning)领域的亮点工作(Editors' Highlights)。南开大学数学科学学院2023级硕士生汤凇鸣为论文第一作者,陈盛泉副教授为论文通讯作者。   

scCASE发表于Nature Communications

scCASE基于非负矩阵分解,引入了可迭代优化的细胞间相似性矩阵,有效整合相似细胞的表观信号以克服数据噪声。通过在多个数据集上进行综合评估,研究团队系统地展示了scCASE相较于其他方法在数据增强、下游分析、鲁棒性等方面的优势。增强后的单细胞染色质开放性数据能够有效地刻画细胞异质性信号,提升细胞聚类、可视化等下游分析的质量。通过广泛的组织特异性表达富集、生物学功能富集和遗传力富集分析,研究团队揭示了scCASE具备良好的模型解释性,能够为细胞亚群提供有价值的生物学见解。研究团队还提供了scCASE的多个扩展方法,并展示了其在测序深度矫正、批次效应矫正、以及结合参考数据进行弱监督学习的潜力。   

scCASE模型示意图

相较于单细胞转录组测序而言,现有的单细胞表观基因组测序难度与成本较高,且灵敏度与通量较低,因此,如何通过计算方法基于其他组学的单细胞数据生成相应的单细胞表观基因组数据,从而构建更为全面的表观细胞图谱,是一个亟待解决的问题。

2024年4月6日,陈盛泉课题组在Nature Communications上在线发表题为“scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders”的研究论文[2],提出了一种名为scButterfly的单细胞数据跨组学转换方法,被编辑推荐为人工智能和机器学习(AI and machine learning)领域的亮点工作(Editors' Highlights)。南开大学数学科学学院2019级本科生曹一川为论文第一作者,陈盛泉副教授为论文通讯作者。   

scButterfly发表于Nature Communications

scButterfly基于耦合变分自编码器和对抗学习策略,在语义级别对不同组学的潜在表示进行对齐,以学习跨组学数据间的联系,并提出了多种有效的数据扩增方法。通过在多个数据集上进行综合评估,研究团队系统地展示了 scButterfly相较于其他方法能够更有效地在多种复杂情况下完成单细胞数据的跨组学转换,同时为不同组学数据提供有价值的生物学见解。此外,研究团队还介绍了 scButterfly在多组学整合分析、多组学数据增强以及scATAC-seq数据细胞类型注释等方面的广泛应用,并展示了scButterfly利用数据扩增及最优传输策略,推广至非配对数据训练和扰动响应分析的能力。最后,研究团队介绍了scButterfly从表观组经转录组到蛋白组的连续转换能力,以及揭示细胞类型新标志物的潜力。   

scButterfly模型示意图

在建立良好的数据基础之后,需要对数据进行有效的嵌入表示,以揭示细胞表观异质性进而解析基因调控和疾病发生发展机制。然而,多数方法所基于的变分自编码器在隐空间上的高斯分布假设是否合理仍值得商榷,并且基于连续型嵌入表示的方法往往缺乏可解释性,很难直观、定量地解析细胞异质性。

2024年5月10日,陈盛泉课题组联合清华大学自动化系江瑞课题组在Nature Computational Science上在线发表题为“Discrete latent embedding of single-cell chromatin accessibility sequencing data for uncovering cell heterogeneity”的研究论文[3],提出了一种名为CASTLE的单细胞染色质开放性数据离散嵌入表示方法,被美国新泽西理工学院Zhi Wei教授发表在Nature Computational Science上的观点文章评价为“CASTLE is poised to play a key role in unraveling the intricate regulatory landscape of the genome and its impact on cellular diversity, enabling biological discoveries and translational applications in fields ranging from developmental biology to precision medicine.” [4]。清华大学自动化系2019级直博生崔雪建为论文第一作者,清华大学江瑞教授和南开大学陈盛泉副教授为论文通讯作者。    

CASTLE发表于Nature Computational Science

CASTLE基于向量量化变分自动编码器(VQ-VAE),引入了自适应更新的离散化隐空间codebook,为单细胞表观基因组数据提供了可解释的建模思路。研究团队在多个数据集上验证了CASTLE相较于其他方法具有更强的细胞类型辨识能力和可视化效果。基于模型训练得到的codebook可以得到细胞类型特异的特征频谱,直观、定量地刻画细胞表观异质性。同时,CASTLE能够识别细胞类型特异的染色质开放区域,结合丰富的下游分析,研究团队揭示了CASTLE解析特定细胞类型或组织的基因调控机制的潜力。此外,CASTLE能够充分利用外部参考数据,无论参考数据是否带有标签均能优于基准方法,并且在运行时间和内存使用方面均具备高效性。   

CASTLE模型示意图

陈盛泉,2017年7月本科毕业于厦门大学自动化系,2021年12月博士毕业于清华大学自动化系,2022年1月至今任南开大学数学科学学院副教授,主要研究方向为单细胞数据建模与解析。现主持国家自然科学基金一项,以第一或通讯作者身份在Nature Machine Intelligence、Nature Communications、Nature Computational Science、Genome Biology、Nucleic Acids Research、Genome Research等期刊发表学术论文22篇。曾获得4次国家奖学金、2021年获评清华大学“学术新秀”称号,2023年入选国家青年人才托举工程。

现任中国自动化学会智能健康与生物信息专委会委员、中国人工智能学会生物信息学与人工生命专委会委员、中国计算机学会生物信息学新未来青年学者执委会委员、中国运筹学会计算系统生物学分会理事会青年理事、中国生物工程学会计算生物学与生物信息学专委会委员、南开大学创新思维人工智能研发中心负责人。

个人主页:

https://my.nankai.edu.cn/sms/csq/list.htm

课题组主页:

https://biox-nku.github.io

诚挚欢迎交流合作!
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章