近年来,单细胞和空间基因组学的技术突破为健康和疾病领域的细胞、组织图谱研究开辟了新道路。使用单细胞基因组学精确识别疾病中的细胞状态可深入了解发病机制、生物标志物和潜在的药物靶点。鉴定细胞状态的标准方法包括对来自病变组织和健康参考组织的单细胞RNA测序(scRNA-seq)数据进行联合分析。其中,健康参考数据集的选择至关重要。
目前,人类细胞图谱联盟已对健康样本进行了大规模分析,并发布了来自多个器官的大规模、统一数据集或图谱数据集,但该图谱中包含的样本特征可能与疾病队列中的样本特征有很大不同。从健康组织中收集与疾病样本相匹配的对照样本,具有相似的人口统计学和临床特征,可以极大地降低混杂因素导致的信息误差。
近日,英国桑格研究院的科研人员在Nature Genetics期刊上发表了题为“Precise identification of cell states altered in disease using healthy single-cell references”的文章。研究团队评估了单细胞参考图谱的选择如何影响从疾病样本scRNA-seq数据中识别细胞状态变化。利用公开的单细胞转录数据,建立了来自健康个体的单细胞参考图谱,证实使用该图谱进行潜在空间(latent space learning)学习,并对匹配对照进行差异分析,能更好地识别疾病相关细胞,特别是多种受干扰的细胞类型。该研究为设计疾病队列研究和优化细胞图谱的使用提供了指导。
文章发表在Nature Genetics
对疾病相关细胞状态识别的工作流程如图1所示。为了优化单细胞参考数据集的选择,研究团队首先在健康数据集(嵌入参考数据集)上训练降维模型,在最小化批次效应的同时,学习代表细胞表型的潜在空间信息;接下来,使用该模型进行迁移学习,将包含疾病样本的查询数据集映射到相同的潜在空间中;最后,进行差异分析,比较疾病和健康样本之间的单细胞,以识别疾病相关状态。
图1. 利用健康单细胞参考数据集发现与疾病相关的细胞状态。
基于上述流程,研究团队设计了选择参考数据集(参考设计)的三种方案:①细胞图谱参考(AR)设计;②对照参考(CR)设计,其中任一类型的健康细胞数据集被用作嵌入参考和差异分析参考;③结合使用细胞图谱和对照作为参考(ACR),图谱和对照数据集在工作流程的不同步骤中使用,其中,图谱数据集作为嵌入参考,而疾病和对照数据集则映射到同一潜在空间。
研究团队对比了这三种参考设计在模拟和真实数据中识别疾病特异性细胞状态的能力。为模拟真实情况,研究团队通过分离来自13项研究的scRNA-seq数据来模拟图谱、疾病和对照数据集的属性,这些数据来自1,248名捐赠者的健康外周血单个核细胞(PBMC);并选择了一个或多个有注释的细胞类型,模拟了特定于伪疾病数据集的细胞群(“OOR”状态)。
图2. 用于检测OOR细胞状态的参考设计比较的基准设置。
结果显示,图谱数据集不能替代对照样本,但可在复杂的情况下增强对疾病相关细胞状态的发现;将疾病样本的细胞图谱与一组有限的对照样本进行对比是非常必要的,可最大限度地减少疾病状态鉴定中的假阳性。此外,在有参考图谱的情况下,减少对照样本数量并不会增加错误发现率。
COVID-19患者干扰素(IFN)刺激状态的检测
研究团队使用来自90名COVID-19患者和23名健康捐献者PBMC的公开scRNA-seq数据集;并选取来自12项研究1,219名健康个体的scRNA-seq图谱作为图谱数据集;将使用健康PBMC图谱进行潜在嵌入(ACR设计)与仅使用COVID-19和具有联合嵌入(CR设计)的对照数据集进行比较。为量化不同设计识别疾病相关状态的能力,研究团队检测了表达干扰素(IFN)信号通路相关基因的细胞,这是一种关键的抗病毒反应通路,也是COVID-19的公认标志。
通过整合COVID-19队列和PBMC细胞图谱的数据,研究团队发现利用ACR设计能够更灵敏地识别过渡性和异质性病理细胞状态。在COVID-19数据集中,研究团队捕获了不同免疫细胞类型的IFNhi状态,以及与疾病严重程度相关的功能失调的CD14+单核细胞的细分亚群。
图3. 在具有健康图谱的病例对照队列中检测与COVID-19相关的细胞状态。
为评估在其他生物学背景下联合使用单细胞图谱和对照数据集的益处,研究团队分析了来自32名特发性肺纤维化(IPF)患者肺组织样本的scRNA-seq数据集,利用健康的肺组织单细胞图谱研究了肺纤维化的疾病状态。该研究包括来自28名对照供体和18名慢性阻塞性肺病(COPD)患者的数据,并选取核心人类肺细胞图谱(HLCA)数据集作为图谱数据集。
研究团队使用ACR设计分析IPF患者的数据,识别出两种与疾病相关的罕见异常基底细胞状态,KRT5–KRT17+基底细胞和KRT5+KRT17hi基底细胞。分别对上述细胞进行表征,进一步鉴定与正常基底细胞相比,异常基底样状态和过表达的差异表达基因(DEG)。共鉴定出981个显著DEG,其中包括先前描述的6个KRT17hi异常基底细胞标记和35个基底细胞标记,加强了对IPF中基底样细胞表型的了解。
图4. 检测与IPF相关的细胞状态。
综上所述,该研究评估了来自健康个体的单细胞图谱是否适合作为疾病状态识别的参考,以及是否需要匹配的对照样本以减少错误发现。结果证明,联合使用单细胞图谱和匹配对照作为参考,可以最精确地识别疾病scRNA-seq数据集中受影响的细胞状态。此外,通过联合分析来自COVID-19队列和血细胞图谱的数据,研究团队改进了对与不同临床严重程度相关的细胞状态的检测;并使用健康肺图谱研究了肺纤维化的疾病状态,表征了两种不同的异常基底细胞状态。总之,该研究可用于指导新型队列研究的设计以及有效数据复用。
参考文献:
Dann, E., Cujba, AM., Oliver, A.J. et al. Precise identification of cell states altered in disease using healthy single-cell references. Nat Genet 55, 1998–2008 (2023). https://doi.org/10.1038/s41588-023-01523-7
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!