近期,深圳国家基因库魏晓锋、麻凯龙与华大生命科学研究院徐讯团队联合Broad研究所团队在Nucleic Acids Research发表了题为“STOmicsDB: a comprehensive database for spatial transcriptomics data sharing, analysis and visualization”的文章,介绍了一站式空间转录组学数据库STOmicsDB,有助于空间转录组学领域的数据存档、共享、可视化和分析。截至2023年12月,STOmicsDB集成了17个物种128个组织共221个人工整理的数据集,涵盖25种空间转录组技术。研究人员注释了细胞类型,确定了空间区域和基因,并对这些数据集进行了细胞-细胞相互作用分析。
STOmicsDB具有用户友好的界面,可快速可视化数百万个细胞。为了进一步促进空间转录组数据的可重用性和互操作性,研究人员制定了空间转录组数据归档标准,并构建了一个空间转录组数据库归档系统。此外,用户还可以在STOmicsDB中定制专用子数据库,帮助其可视化空间转录组分析。
STOmicsDB旨在为空间转录组研究领域提供一站式服务。STOmicsDB包含四个模块:资源中心模块、数据提交模块、自定义数据库模块、数据集分析与可视化模块(图1)。用户可以通过STOmicsDB首页顶部的导航栏访问各个模块。总而言之,STOmicsDB可用于对现有数据集进行分析和可视化,并对用户数据、搜索相关出版物、定制数据库构建服务和新数据归档系统进行比较分析。
图1. STOmicsDB概览。
为了满足用户方便获取资源的需求,ST omics DB提供了一个综合的空间资源中心,用于搜索和浏览,包括三个部分:(i)出版物;(ii)样本;(iii)项目。空间多组学出版物部分包含元数据和每个记录的简要介绍。项目包括个人空间多组学研究的总体描述,通常涉及多个样本和数据集。样品部分提供了样品处理条件的详细信息以及可视化功能。目前,资源中心模块集成了221个人工整理的空间转录组数据集,以及6962个空间多组学相关出版物的元数据,供用户浏览和搜索。
研究团队开发了一个空间转录组数据归档系统作为空间转录组学数据的集中存储库,允许研究人员以结构化的方式提交其研究数据和相关元数据,包括项目、样品、组织部分、实验和运行以及分析结果(图2)。这有助于提高空间转录组数据的可访问性和可重用性。研究团队还根据不同技术的特点制定了不同的标准来处理不同的分析数据。截至2023年7月,STOmicsDB数据归档系统已经接收了37个项目,总计16.7TB的数据。其中,有13个项目是公开的,共有85.13TB的公共数据被下载。
图2. 空间转录组归档系统的结构。
STOmicsDB的一个重要特性是提供定制的空间转录组学数据库服务Collection,通过与其他研究人员合作,构建满足其特定需求的定制数据库。利用研究人员提供的数据,共同设计数据库结构和数据可视化。该文章发表时,STOmicsDB已经建立了6个定制数据库。
STOmicsDB将最新整理的数据与在线分析和可视化系统相结合,为研究人员提供大量空间转录组研究的综合信息。
研究人员首先使用与空间多组学相关的术语搜索NCBI PubMed来获得候选文章。通过人工筛选的数据集作为训练集,采用机器学习方法进一步选择和分类其余的空间多组学相关文章,共获得6962篇文章。此外,研究团队检索了NCBI GEO和EMBL-EBI收集空间转录组候选数据集,以及来自10x Genomics网站和SPATIAL研究网站的数据集。每个数据集都有一个唯一且永久的登录ID。研究人员进行了多次分析来整理收集的数据集并显示结果(图3)。
图3. 数据集管理的完整流程,包括数据收集、元数据结构、标准化和数据分析。
用户可以使用STOmicsDB中的在线分析和可视化模块进行深入的数据挖掘。以MOSTA小鼠空间转录组数据集(STDS0000058)为例,研究团队探索了小鼠胚胎发育过程中不同基因的表达模式。(图4)
图4. 小鼠案例中的基因表达模式。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!