现有的反卷积工具主要集中于利用转录组学数据推断细胞类型比例或细胞位置,其在单模态数据场景中表现出色,但在空间环境中有效捕获和表征不同模态之间差异的能力有限。此外,由于缺乏对组织的空间多模态洞察,人们在理解基因表达的时空调控和组织中细胞通信的多维传递等方面存在障碍。
为克服上述挑战,浙江大学药学院范骁辉、陆晓燕团队在Cell Genomics上发表了题为“Revealing spatial multimodal heterogeneity in tissues with SpaTrio”的文章。研究团队提出了一个基于单细胞多组学和ST数据的单细胞空间映射计算工具——SpaTrio。通过整合两个数据集,SpaTrio可以生成单细胞空间图谱,构建细胞群的空间模式,并可在空间尺度上分析组织的多模态拓扑结构。SpaTrio还可分析各种分子特征的空间共表达,并在空间分辨率上进行基因调控分析或细胞间通信推断。研究团队利用具有不同空间模式和生物数据集的模拟数据集对SpaTrio进行了基准测试,证明了其准确性和鲁棒性;并将其应用于从小鼠大脑到人类肝脏、乳腺癌的实际数据中,以在细胞水平上研究各种生物分子的空间组织。
文章发表在Cell Genomics
SpaTrio是一个计算工具,通过构建k-NN图和计算每个数据集的距离矩阵可实现单细胞多组学数据的空间映射,保留组织切片的空间拓扑结构和模态数据的局部几何形状(图1)。具体而言,对于单细胞多组学数据,使用模态分析的低维表示构建模态图;对于ST数据,使用空间坐标构建空间图。随后,SpaTrio计算单细胞多组学数据中的细胞与ST数据中的点之间的最优概率对齐,最大限度地减少两个数据集之间的转录差异以及来自同一数据的对齐细胞/位点之间的图距离差异。最后,SpaTrio根据比对结果为每个位点分配预期的细胞数量,并根据映射后的细胞与周围位点的转录相似度对细胞坐标进行校正。
图 1.使用SpaTrio对单细胞多组学数据进行空间映射。
研究团队使用模拟单细胞多组学数据和小鼠大脑皮层数据(单核染色质可及性和mRNA表达测序,SNARE-seq)中具有不同空间模式的ST数据,对SpaTrio进行了一系列评估(图2)。ST数据的模拟包括采样、合并和坐标分配,并在所有位点的所有基因上添加一个伪计数δread,对read进行重新采样。
结果显示,随着δ逐渐增加,SpaTrio的性能变得更加稳定。相比之下,仅依赖基因表达会导致映射性能下降;当仅基于图谱数据预测时,只有极小部分细胞被正确映射,这凸显了共享模态在精确整合中的重要性。值得注意的是,在转录组异质性较低的情况下,SpaTrio仍可以根据另一种模态(表观基因组)准确恢复超87%细胞的空间位置。
研究团队还将SpaTrio与其他几种集成方法以及scRNA-seq整合方法(Seurat、Scanorama)进行了比较,包括PASTE和Tangram(ST整合方法)、CARD。与其他工具相比,SpaTrio 表现出卓越的性能;当转录组异质性较低时,其他工具和SpaTrio之间的差距尤为明显。
图2. SpaTrio在模拟和生物数据的结果。
考虑到生物场景中细胞空间组织的复杂性和可变性,研究团队评估了SpaTrio在由小鼠胚胎数据(DBiT-seq)生成的多组学数据和ST数据上的性能(图3)。结果显示,SpaTrio成功地还原了重要细胞簇的空间模式,甚至是空间模式不规则或复杂的细胞簇;其能基于细微的模态差异来推断拓扑异质性,从而实现空间模式的结构细化。
在基因表达方面,SpaTrio的结果与先前报道一致,最易变的2,000个基因的表达与真实情况高度相似,平均Pearson相关系数(PCC)为0.947;SpaTrio的蛋白质表达重建结果同样准确,所有蛋白质表达水平与真实情况相似,平均PCC为0.991。上述结果表明,在具有复杂和可变组织结构的生物情景中SpaTrio依旧保持优越性能,可准确、有效地准确重建空间模式和多模态信息。
图3.SpaTrio在胚胎小鼠脑和小鼠肝脏数据集上的结果。
接下来,研究团队评估了SpaTrio在真实数据集其他数据集上的性能,首先将其应用于公开的小鼠脑单细胞多组学数据集(ISSAAC-seq)和ST数据集中(图4)。SpaTrio准确地重建了兴奋性神经元亚群的层(L)特异性特征,并按照L2/3(L2/3 IT, L2/3 IT Act), L4/L5(L4/5 IT, L5 PT)和L6(L6 CT, L6 IT Bmp3, L6b)的顺序排列,这与已知的大脑皮层组织一致。此外,SpaTrio还成功地保留了输入数据中皮层之间的转录差异。
研究团队利用基因表达和染色质可及性探索了小鼠大脑皮层组织中基因调控的空间模式,发现了小鼠大脑皮层标记基因Rorb和Cux2的不同基因调控关系。激活调控因子RORB在不同层次上表现出基因和基序活性的同步变化,基因表达和基序活性在L4/5达到峰值,具有紧密的空间模式;抑制调控因子CUX2呈现相反的趋势和空间分布。这些结果表明,无论基因调控关系如何,SpaTrio都能有效地还原基因调控的空间模式,保留模式之间的差异及关联。
图4.SpaTrio重建小鼠皮层组织的空间组织。
研究团队将SpaTrio应用于人类脂肪肝公开ST数据集(Visium)和单细胞多组学数据集(CITE-seq)中(图5),发现重建的细胞类型分布近似于输入的ST数据;已知标记基因的表达和各种细胞类型的百分比呈高度相关性。研究团队将所有肝细胞重新聚类,发现其产生了两个亚群,分别为中心肝细胞和门静脉周围肝细胞。进一步推断肝细胞轨迹来研究空间表达动态,并使用SpaTrio映射其伪时间,发现SpaTrio成功地还原了组织中连续转录程序的空间结构。
研究团队选择了门静脉和门静脉周围区域的肝细胞,对其基因表达和蛋白质丰度进行了空间多模态相互作用分析。结果显示,对于从门静脉传递到门静脉周围区域的信息,转录组中的细胞通讯包含了与纤维化相关的重要信息,这与发生在门静脉及其周围区域的脂肪变性诱导纤维化一致。
图5.SpaTrio重建人脂肪肝组织的空间组织和细胞多模态相互作用。
最后,研究团队将SpaTrio应用于人类乳腺癌单细胞多组学和ST数据集中,选择多个细胞类型特异性标记基因来计算输入ST数据中每个spot的细胞类型丰度,并将其与使用SpaTrio映射的细胞类型比例进行比较(图6)。从空间分布的角度来看,细胞丰度与类型比之间存在良好的一致性。
研究团队使用SpaTrio对主要区域的T细胞蛋白质组进行了空间模块分析,发现两个主要模块:模块1包含有几种与T细胞抑制或衰竭相关的蛋白,在间质区、淋巴细胞区和浸润性癌区高度富集;模块2包含几种与T细胞活化相关的蛋白质,主要富集于浸润性癌+淋巴细胞区。
进一步,研究团队选择了浸润性癌+淋巴细胞区域的主要细胞类型,进行多模态相互作用分析,发现髓细胞、血管周围样细胞(PVL)和内皮细胞影响T细胞的CD3D/CD3G基因和CD3D/TLR4蛋白。此外,PVL细胞可能通过参与免疫细胞的多模态信息传递,在促进乳腺癌的发展和转移中发挥重要作用。
图6.SpaTrio重建人乳腺癌组织中免疫微环境的多模式通讯空间组织。
综上所述,研究团队开发了一种名为SpaTrio的计算方法,可以通过概率比对整合数据集来构建空间多组学数据,并进一步分析基因调控和细胞相互作用。该研究使用模拟数据集、生物数据集对SpaTrio进行评估,发现其可以检测细胞和模态的拓扑模式,揭示空间多模态异质性和细胞间多模态通信。该研究表明,SpaTrio可准确地绘制单细胞并重建各种生物分子的空间分布,为空间生物学提供了有价值的多模态见解。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!