科研

Delta: 三维基因组多组学数据可视化的三角洲特种部队

人类的基因组DNA如果拉成直线大约长度是2米。而这两米长的DNA需要正确的折叠在尺度小近6个数量级的细胞核(微米)内,才能正确的行使其功能。正因为基因组3D结构的重要作用,美国开启了“4D nucleome计划”,旨在全面解析基因组3D结构在时间和空间上的变化。我国科学家在基因组3D结构方面也有重大发现,例如,今年中科院北京基因组研究所的刘江研究员和清华大学的颉伟研究员团队,分别在Cell和Nature上背靠背的发表了哺乳动物早期胚胎发育过程中的基因组3D结构变化规律。染色质3D构象因为和多种表观遗传学修饰紧密相关,这使得3D基因组结构可以作为一个核心,把相互异质的表观多组学数据整合在同一个框架下研究。这对更深入的理解基因表达调控、染色质复制以及人类疾病都将有重要意义。

但是,目前在基因组3D结构研究中由于数据的规模庞大,数据特征类型和传统的组学数据差别较大。一般的可视化工具比如常用的Genome Browser并不能很好的帮助研究人员直观的把握数据的内在特征和关联。针对上述可视化面临的挑战,已有一些可视化工具被开发出来。这些工具在可视化Hi-C数据上各有侧重和特点,比如热图显示(Juicebox),组学数据整合(Epigenome Browser), 和疾病突变关联(3Disease Browser)等。然而,由于3D基因组数据在多个层面反应不同的结构信息。比如,基因组3D结构在线性基因组上的表现的是相互作用强度、在抽象结构上有拓扑关系,而最终需要三维物理结构的表现。线性、拓扑和物理三个方面相辅相成,相互印证,是全面理解3D基因组数据的基础。然而目前并没有一个单独的工具,可以完整无缝的整合和可视化3D基因组数据的这三个层次。因此,中科院北京基因组研究所的张治华研究员和赵文明高级工程师团队最近开发一个名为Delta全新3D基因组数据分析和可视化平台来解决这一问题。希腊字母Δ(Delta)的三个角分别象征3D基因组数据的线性表现,拓扑表现,以及物理结构表现三个不同方面。

通过开发一种叫做“Dual-mode”的技术,Delta把3D基因组数据三个方面有机的整合起来。简单的说就是,以物理图像为基准,线性或者拓扑图像为参照来同时呈现数据。如下图所示:

左边是著名的球珠蛋白(globin)家族基因座和它们的基因座调控区(LCR)的基因组物理模型。可以看到在物理模型中有该区域基因和基因间相互作用的简单注释。右边是该区域对应的基因组注释数据的线性呈现。两边的数据是实时同步的。也就是说,你在任何一边的操作,都可以在另一端实时的得到响应。当然,右边的线性呈现也可以替换成拓扑呈现,如下图所示:

一个平台当然需要强大的数据和计算资源做依托。Delta目前整合了ENCODE的主要表观遗传学数据和最常用的高分辨率Hi-C数据集。另外,Delta开放了用户上传自有数据的功能,这样,用户可以根据自己的需要上传定制的基因组注释或者Hi-C实验数据。Delta甚至整合了一个Hi-C数据分析的工作流程。不过目前只开放从mapping得到连接矩阵之后的分析,包括对结构域的分析,物理结构解析等。Delta目前依托中科院北京基因组研究所大数据中心(BIGD)的强大计算能力,所有的后端都是基于云服务,因此,有望在将来和BIGD的海量数据全面整合成为多物种,多组学的一站式可视化解决方案。期望Delta成为3D基因组多组学数据可视化的三角洲特种部队。

最后,Delta在每一个数据呈现模式上都有很多自己的创新点,读者可以自己去探索一下,看看能不能发现有意思的彩蛋,也欢迎读者提出任何建议和意见。

Delta访问网址:

http://delta.big.ac.cn

参考资料:

Bixia Tang, Feifei Li, Jing Li, Wenming Zhao#, Zhihua Zhang#, Delta: a new Web-based 3D genome visualization and analysis platform (2017) Bioinformatics. DOI: 10.1093/bioinformatics/btx805

(0)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章