为弥补上述不足,哈尔滨工业大学研究团队联合腾讯人工智能实验室团队构建了一个全面的单细胞蛋白质组学数据库SPDB,可用于一般单细胞蛋白质组学数据,包括基于抗体或基于质谱的单细胞蛋白质组学,提供了从单细胞角度研究蛋白质组学的强大工具。SPDB具有标准化的数据处理流程和友好的web界面,提供统一的数据格式,方便与下游分析交互,并提供数据集级和蛋白质级的数据搜索和探索能力。SPDB还提供了一个模块,用于从细胞元数据或蛋白质特征的角度对数据进行可视化。迄今为止,SPDB集成了来自12种基于抗体和质谱技术的143个单细胞蛋白质组学数据集,涵盖了4个不同物种的3亿个细胞和8000多种不同的蛋白质。该研究结果已发表在Nucleic Acids Research上,文章题为“SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution”。
作为一个用户友好的网络服务器,SPDB提供了广泛的功能,包括单细胞蛋白质组数据部署,数据集搜索和挖掘模块、蛋白质搜索和挖掘模块、数据统计模块,以及详细的用户手册。
SPDB可从不同的角度全面挖掘先进的单细胞蛋白质组学数据集。应用数据过滤器后,用户可以选择一个目标数据集,并通过点击相应的“More Details”按钮进入模块的二级页面。随后,用户可以从不同角度(即关键信息、数据可视化、蛋白质比较)有效地探索该数据集。同时,通过点击“rds file”按钮,可以下载统一格式的处理数据。
图1.SPDB中的数据搜索和探索演示。(A) SPDB中所有采集数据集的浏览界面和过滤组件。(B) SPDB的数据信息面板。(C) SPDB的UMAP可视化面板。(D) SPDB蛋白对比图。(E) SPDB分析结果面板。
图2.SPDB中蛋白质搜索和探索演示。(A) SPDB蛋白检索页面。(B)一个由模糊搜索得到的可用蛋白质列表的例子。(C)在至少一个数据集中检测到的候选蛋白表。(D) SPDB蛋白汇总图。(E)相关数据集的浏览界面和一个选定数据集的新弹出窗口。
在“Protein”页面上搜索特定蛋白质后,用户将能够从“Datasets”选项卡中选择两个相关的数据集,并执行数据比较功能,以研究不同条件下的蛋白质表达模式(图3)。点击“Compare Expression”按钮,将显示一个新窗口,显示两个UMAP图,说明特定蛋白在不同条件下的表达。此外,在选择“Compare Correlation”按钮后,用户将被重定向到一个专门的网页,该网页可在两种不同条件下对蛋白质相关模式进行比较分析。
图3.SPDB中数据比较的演示。(A)相关数据集的浏览界面。(B)两个特定数据集中蛋白表达的比较。(C)两个特定数据集中蛋白质相关模式的比较。
研究概述
SPDB是为单细胞蛋白质组学数据量身定制的最大规模的综合数据库,将为促进单细胞蛋白质组学在癌症研究和药物发现领域的广泛应用奠定坚实的基础。未来,利用SPDB中存储的大量单细胞蛋白质组学数据,该研究团队计划开发针对单细胞蛋白质组学的专门计算工具,例如细胞类型注释、数据集成和drop-out imputation方法,并将新开发的工具集成到SPDB平台中。同时,研究团队将努力获取类似组织或细胞条件下蛋白质的相关基因表达数据,使用户能够在单细胞水平上进行蛋白质和基因表达的比较分析。此外,研究团队将通过纳入新的相关研究和技术来不断维护和更新SPDB,同时增强其功能和工具集成。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!