科研

首页 - 全部文章 - 科研 - NAR|深圳国家基因库/华大生命科学研究院发表空间转录组学数据共享、分析和可视化综合数据库STOmicsDB

NAR|深圳国家基因库/华大生命科学研究院发表空间转录组学数据共享、分析和可视化综合数据库STOmicsDB

空间转录组学技术能够在单细胞水平上检测基因表达及其空间位置,从而对生物过程进行深入的分析。目前,大多数空间转录组数据都保存在基因表达综合数据库(GEO)中。但GEO或其他数据存储库大多缺乏空间转录组数据的归档标准,导致提交的数据格式多种多样。GEO中大多数提交的数据仅包括基因表达数据,缺乏条形码或组织学图像的空间信息,导致空间转录组学关键信息缺失。因此,亟需一个全面的数据库来促进空间转录组数据的共享,简化研究人员的数据获取过程。

近期,深圳国家基因库魏晓锋、麻凯龙与华大生命科学研究院徐讯团队联合Broad研究所团队在Nucleic Acids Research发表了题为“STOmicsDB: a comprehensive database for spatial transcriptomics data sharing, analysis and visualization”的文章,介绍了一站式空间转录组学数据库STOmicsDB,有助于空间转录组学领域的数据存档、共享、可视化和分析。截至2023年12月,STOmicsDB集成了17个物种128个组织共221个人工整理的数据集,涵盖25种空间转录组技术。研究人员注释了细胞类型,确定了空间区域和基因,并对这些数据集进行了细胞-细胞相互作用分析。

STOmicsDB具有用户友好的界面,可快速可视化数百万个细胞。为了进一步促进空间转录组数据的可重用性和互操作性,研究人员制定了空间转录组数据归档标准,并构建了一个空间转录组数据库归档系统。此外,用户还可以在STOmicsDB中定制专用子数据库,帮助其可视化空间转录组分析。

文章发表在Nucleic Acids Research
 
STOmicsDB里有什么?

STOmicsDB旨在为空间转录组研究领域提供一站式服务。STOmicsDB包含四个模块:资源中心模块、数据提交模块、自定义数据库模块、数据集分析与可视化模块(图1)。用户可以通过STOmicsDB首页顶部的导航栏访问各个模块。总而言之,STOmicsDB可用于对现有数据集进行分析和可视化,并对用户数据、搜索相关出版物、定制数据库构建服务和新数据归档系统进行比较分析。

图1. STOmicsDB概览。

1. 资源中心模块

为了满足用户方便获取资源的需求,ST omics DB提供了一个综合的空间资源中心,用于搜索和浏览,包括三个部分:(i)出版物;(ii)样本;(iii)项目。空间多组学出版物部分包含元数据和每个记录的简要介绍。项目包括个人空间多组学研究的总体描述,通常涉及多个样本和数据集。样品部分提供了样品处理条件的详细信息以及可视化功能。目前,资源中心模块集成了221个人工整理的空间转录组数据集,以及6962个空间多组学相关出版物的元数据,供用户浏览和搜索。

2. 数据提交模块

研究团队开发了一个空间转录组数据归档系统作为空间转录组学数据的集中存储库,允许研究人员以结构化的方式提交其研究数据和相关元数据,包括项目、样品、组织部分、实验和运行以及分析结果(图2)。这有助于提高空间转录组数据的可访问性和可重用性。研究团队还根据不同技术的特点制定了不同的标准来处理不同的分析数据。截至2023年7月,STOmicsDB数据归档系统已经接收了37个项目,总计16.7TB的数据。其中,有13个项目是公开的,共有85.13TB的公共数据被下载。

图2. 空间转录组归档系统的结构。

3. 自定义数据库模块

STOmicsDB的一个重要特性是提供定制的空间转录组学数据库服务Collection,通过与其他研究人员合作,构建满足其特定需求的定制数据库。利用研究人员提供的数据,共同设计数据库结构和数据可视化。该文章发表时,STOmicsDB已经建立了6个定制数据库。

4. 数据探索模块

STOmicsDB将最新整理的数据与在线分析和可视化系统相结合,为研究人员提供大量空间转录组研究的综合信息。

STOmicsDB的数据集是如何收集和处理的?

研究人员首先使用与空间多组学相关的术语搜索NCBI PubMed来获得候选文章。通过人工筛选的数据集作为训练集,采用机器学习方法进一步选择和分类其余的空间多组学相关文章,共获得6962篇文章。此外,研究团队检索了NCBI GEO和EMBL-EBI收集空间转录组候选数据集,以及来自10x Genomics网站和SPATIAL研究网站的数据集。每个数据集都有一个唯一且永久的登录ID。研究人员进行了多次分析来整理收集的数据集并显示结果(图3)。

图3. 数据集管理的完整流程,包括数据收集、元数据结构、标准化和数据分析。

案例:小鼠胚胎数据集中的候选基因鉴定

用户可以使用STOmicsDB中的在线分析和可视化模块进行深入的数据挖掘。以MOSTA小鼠空间转录组数据集(STDS0000058)为例,研究团队探索了小鼠胚胎发育过程中不同基因的表达模式。(图4)

图4. 小鼠案例中的基因表达模式。

该研究介绍的STOmicsDB有助于推动空间转录组学领域的研究,为数据归档、共享、可视化和分析提供方便的途径和工具。交互式可视化工具和下游分析功能已集成到STOmicsDB中,为用户提供了一种直观高效的方式来理解和分析数据集。研究团队还将继续新数据集的收集和整理工作,不断优化交互性和可视化,未来,还将整合同一物种或同一器官精选数据集的标记基因,生成基因网络或相关图谱,用于提高研究人员有效表征细胞和组织生物学洞察的能力。

STOmicsDB可免费访问
https://db.cngb.org/stomics/
论文链接
https://doi.org/10.1093/nar/gkad933
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章