基因融合是指两个基因的全部或一部分的序列相互融合成为一个新基因的现象,常见于肿瘤细胞。基因融合是一种特殊的结构变异,导致其发生的常见机制包括染色体易位(Chromosomal Translocation)、缺失(deletion)、倒位(Chromosomal Inversion)等。一些基因融合是肿瘤的驱动变异,在肿瘤的发生、发展中起到关键作用,同时也是肿瘤治疗的重要靶点。目前,很多靶向基因融合的肿瘤药物已经获批,并取得了很好的疗效,如伊马替尼(靶向BCR-ABL融合)、克唑替尼(靶向ALK融合)等。准确地探测基因融合对于肿瘤的基础研究和临床药物研发均有重要意义。RNA测序技术的发展为基因融合的探测提供了高效的技术平台,单细胞RNA测序技术(scRNA-seq)的发展为在单细胞分辨率下无偏的探测基因融合提供了可能。
目前已有很多针对大量细胞(bulk)测序探测基因融合的算法,探测基因融合的主要原理是分析由基因融合导致的嵌合序列。目前基于单细胞数据探测基因融合仍面临较大挑战,主要体现在: (1) 在PCR扩增阶段可能会产生额外的技术原因导致的嵌合序列,算法需要分辨哪些嵌合序列是由真实基因融合所产生的; (2)很多单细胞有相同的基因变异,结合多个单细胞的信息可以提高算法的功效; (3)目前单细胞数据集通常有几千甚至上万个细胞,算法必须能够高效的处理如此庞大的数据量。
为解决上述难题,北京大学席瑞斌团队在Nature Communications发表了题为“Single cell gene fusion detection by scFusion“ 的文章,开发了一个基于单细胞RNA测序数据探测基因融合的算法scFusion。该算法主要基于零膨胀的负二项分布模型(Zero-Inflated Negative Binomial model)和双向长短时记忆(Bi-directional Long Short Term Memory,bi-LSTM)深度学习模型。模拟分析和大量的实际数据分析表明,scFusion在准确性、计算效率等方面均优于现有的针对大量细胞测序数据开发的基因融合探测工具。
文章发表于Nature Communications
主要研究内容
图1. scFusion的工作流程。
研究团队进一步结合实验评估了scFusion的性能,首先在单细胞中人工引入27个已知基因融合,并对引入融合的细胞进行了单细胞测序(spike-in数据)。scFusion报告了51个融合,包括全部的27个已知基因融合。其他方法至少报告310个融合,说明很多检测出的融合都是假阳性。另外,相比其他方法,scFusion报告的融合中,有更高比例的融合有大量细胞测序数据的支持。
图3. 各种方法在spike-in数据上的表现。
图5. 多发性骨髓瘤数据分析。
结 语
该项目得到国家自然科学基金委员会、科技部重点研发计划、北京大学中俄数学中心的资助。北京大学数学科学学院的席瑞斌教授为本文的通讯作者,北京大学数学科学学院的2017级直博生金子捷为本文的第一作者,北京大学前沿交叉学院黄文健博士、浙江大学医学中心沈宁研究员、北京大学工学院李娟博士、北京大学数学科学学院王啸辰、基石生命董技巧、哈佛大学医学院Peter J. Park教授为本研究作出重要贡献。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!