科研

首页 - 全部文章 - 科研 - Nature 子刊 | 北京大学席瑞斌组开发首个单细胞基因融合探测算法scFusion

Nature 子刊 | 北京大学席瑞斌组开发首个单细胞基因融合探测算法scFusion

基因融合是指两个基因的全部或一部分的序列相互融合成为一个新基因的现象,常见于肿瘤细胞。基因融合是一种特殊的结构变异,导致其发生的常见机制包括染色体易位(Chromosomal Translocation)、缺失(deletion)、倒位(Chromosomal Inversion)等。一些基因融合是肿瘤的驱动变异,在肿瘤的发生、发展中起到关键作用,同时也是肿瘤治疗的重要靶点。目前,很多靶向基因融合的肿瘤药物已经获批,并取得了很好的疗效,如伊马替尼(靶向BCR-ABL融合)、克唑替尼(靶向ALK融合)等。准确地探测基因融合对于肿瘤的基础研究和临床药物研发均有重要意义。RNA测序技术的发展为基因融合的探测提供了高效的技术平台,单细胞RNA测序技术(scRNA-seq)的发展为在单细胞分辨率下无偏的探测基因融合提供了可能。

目前已有很多针对大量细胞(bulk)测序探测基因融合的算法,探测基因融合的主要原理是分析由基因融合导致的嵌合序列。目前基于单细胞数据探测基因融合仍面临较大挑战,主要体现在: (1) 在PCR扩增阶段可能会产生额外的技术原因导致的嵌合序列,算法需要分辨哪些嵌合序列是由真实基因融合所产生的; (2)很多单细胞有相同的基因变异,结合多个单细胞的信息可以提高算法的功效; (3)目前单细胞数据集通常有几千甚至上万个细胞,算法必须能够高效的处理如此庞大的数据量。

为解决上述难题,北京大学席瑞斌团队Nature Communications发表了题为“Single cell gene fusion detection by scFusion“ 的文章,开发了一个基于单细胞RNA测序数据探测基因融合的算法scFusion。该算法主要基于零膨胀的负二项分布模型(Zero-Inflated Negative Binomial model)和双向长短时记忆(Bi-directional Long Short Term Memory,bi-LSTM)深度学习模型。模拟分析和大量的实际数据分析表明,scFusion在准确性、计算效率等方面均优于现有的针对大量细胞测序数据开发的基因融合探测工具。

文章发表于Nature Communications

主要研究内容

scFusion基本原理

scFusion整合来自每个细胞的嵌合序列得到候选基因融合,再利用统计模型和深度学习模型从中筛选出较为可靠的结果。scFusion首先利用STAR进行序列映射,提取出嵌合序列并得到初始候选基因融合(几万个到几十万个)。由于真实的基因融合事件并不会太多,绝大部分候选基因融合都是技术原因造成的假阳性。席瑞斌团队基于广义可加模型(generalized additive model)对融合的支持序列数进行建模,从中估计出背景噪声的分布;再用统计假设检验方法,从中挑选出嵌合序列支持数显著高于背景噪声的基因融合。另一方面,部分技术原因造成的假阳性也会反复出现,且有非常高的嵌合序列支持数,统计模型中很难去除这些假阳性。为了进一步去除这些假阳性,scFusion通过构建bi-LSTM神经网络,学习由技术原因造成的嵌合序列的特征,从而去除相应的假阳性经过两个模型的过滤,scFusion探测基因融合具有很高的灵敏度和特异度。

图1. scFusion的工作流程。

为验证scFusion的性能,研究团队设计了新颖、符合实际的单细胞基因融合数据的模拟方法,进行了大量的模拟分析。在六种不同的设定下,scFusion的表现均优于其它方法。
图2. scFusion与其它算法在模拟数据上的表现。

研究团队进一步结合实验评估了scFusion的性能,首先在单细胞中人工引入27个已知基因融合,并对引入融合的细胞进行了单细胞测序(spike-in数据)。scFusion报告了51个融合,包括全部的27个已知基因融合。其他方法至少报告310个融合,说明很多检测出的融合都是假阳性。另外,相比其他方法,scFusion报告的融合中,有更高比例的融合有大量细胞测序数据的支持。 

图3. 各种方法在spike-in数据上的表现。

scFusion在T细胞数据集中探测MAIT细胞的标记融合

研究团队分析了来自肝癌样本的2355个T细胞的测序数据。由于T细胞是正常细胞,因此除了TCR基因的V(D)J重排之外,基因融合事件应非常少。相比其他方法,scFusion报告了最少数量的基因融合。scFusion 发现很多T细胞具有TRAJ33-TRAV1-2 和 TRAJ12-TRAV1-2重排。我们知道,T细胞的一种亚型细胞MAIT会特异的使用这些重排,因此这些细胞可能是MAIT细胞。基因表达分析发现,这些细胞高表达MAIT细胞的标志基因SLC4A10,验证了scFusion探测结果的准确性。
图4. T细胞数据分析。

scFusion在多发性骨髓瘤(Multiple Myeloma)数据中提供了机理解释

为展示scFusion在肿瘤研究中的应用,研究团队分析了多个多发性骨髓瘤病人的597个细胞的测序数据。scFusion检测到了多发性骨髓瘤的频发基因融合IgH-WHSC1WHSC1是一个原癌基因,该基因的高表达会促进骨髓瘤的生长。研究团队发现,在有该融合的细胞中,WHSC1的表达显著高于没有该融合的细胞。值得注意的是,具有该融合的细胞的测序深度在WHSC1基因融合断点的下游显著提升,没有该融合的细胞则在WHSC1上的测序深度保持平稳,说明此融合可能导致了WHSC1表达升高。

图5. 多发性骨髓瘤数据分析。

结 语

研究团队开发一个基于单细胞RNA测序探测基因融合的算法scFusion。多个实验结果一致表明,scFusion在保证能够灵敏地识别相关细胞中的重要基因融合的同时,可以很好的控制假阳性率。scFusion为肿瘤的单细胞研究提供了重要的分析工具,首次实现了在单细胞水平准确探测基因融合,预期能对肿瘤和单细胞研究起到推动作用。

该项目得到国家自然科学基金委员会、科技部重点研发计划、北京大学中俄数学中心的资助。北京大学数学科学学院的席瑞斌教授为本文的通讯作者,北京大学数学科学学院的2017级直博生金子捷为本文的第一作者,北京大学前沿交叉学院黄文健博士、浙江大学医学中心沈宁研究员、北京大学工学院李娟博士、北京大学数学科学学院王啸辰、基石生命董技巧、哈佛大学医学院Peter J. Park教授为本研究作出重要贡献。

参考资料:
Jin, Z. et al. Single-cell gene fusion detection by scFusion. Nat Commun 13, 1084 (2022). https://doi.org/10.1038/s41467-022-28661-6
(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章