人类基因调控作用的全基因组映射

越来越多的证据表明,调控基因组元件间的交互作用在调节基因表达中起到重要作用。清华大学生物信息学部张奇伟教授研究团队合作美国斯坦福大学、耶鲁大学等处的研究人员运用了双末端标签测序分析染色质相互作用技术(CHIA-PET),针对六个广泛分布的元素进行分析,深入研究了在人类细胞(一级编码细胞K562GM12878)中调控元件的全基因组相互作用映射。该研究发表在201412月的《Genome Research》杂志上。

研究人员利用靶定6个广泛分布因子的ChIA-PET实验,进行了染色质相互作用分析,产生了人类细胞中调控元件互作的全基因组图。六组CHIA-PET试验数据,经结合峰检测,涵盖了大多数DNase I 超敏结合位点(80% )和已标记的调控原件(82.7%),包含99.7%TSS98.0%增强子(Fig. 1A;Table 1)。44%CTCF区域,36%启动子区域和21%的增敏剂区域至少参与了一次调控作用(Table 1)

CHIA-PET的交互反应在很大程度上取决于HI-C5C的相互作用。HI-C发现,全基因组调控作用的映射中,基因组组织规模拓扑相关域的碱基(TADs)具有高频率域内的调节作用。与这些结果一致, CHIA-PET反应的大多数(97%)连接两个区域内同一拓扑结构域(Fig. 1B,C)

比较交互作用的各类型中,每个数据集显示的相似性和每组转录因子中的差异(Fig. 1F)。相反, H3K2me-3-bound交互的47%连接增强子与启动子,但还有28%连接有两个CTCF元件。尽管存在这些差异,大多数的调节作用是在一个以上的数据集中监测,共计有1900765%)的调节作用被发现在一个以上的数据集中,其中有1035935%)具有特定因子。根据以上分析得出:数据集在K562细胞中的调控元件间,代表了全基因组映射的远程交互。

Figure1

研究人员运用CHIP-seq技术确定102个转录因子结合区间相交的数据,以确定何种转录因子参与远程相互作用。四个因素在相互作用位点明显富集;RAD21SMC3CTCFZNF143(Fig. 2A; Supplemental Fig. S2A)RAD21SMC3是黏连蛋白的组成部分,习惯称为有丝分裂过程中的两条姐妹染色单体。然而,黏连蛋白复合物在大多数细胞周期已与DNA结合,受远程相互作用的影响。CTCF,一种典型的绝缘子蛋白,在K562细胞中有大多数(96.7%)的RAD21结合位点,也受到远程调节作用的影响。ZNF143是一种作为转录激活因子的锌指蛋白,往往与CTCF、黏连蛋白结合。ZNF143通过结合一个位于核心启动子区域的18bp的基序,可调节编码和非编码基因结合,但迄今没有受染色质的三维结构影响。这四个影响因子当实验数据合并(Fig. 2A),每个因子单独分析。

对于所有的数据集,相较于RAD21没有与任一短结合,或RAD21只与一端结合,两端均结合有RAD21的相互作用的Z-scores明显较高(P < 0.05, Wilcoxon signed rank test) (Fig. 2B)。通过比较所有转录因子中,近端的靶标数目(转录因子与基因启动子结合位点)和远端的靶标数目(转录因子与基因启动子能相互作用的远端位点)。虽然大多数转录因子同时通过与远端和近端的结合调控靶基因,RAD21SMC3CTCFhe ZNF143的远端与近端靶标比比值最高(Fig. 2C)。结合上述分析,结果暗示黏连蛋白、CTCFZNF143参与远程相互作用的调控。这些发研究结果也说明,这些影响因素能在相互作用中互相影响。

针对每一个转录因子,基于各影响因素的组合对神经元集群基因位点的作用,建立了一个自组织映射(SOM(Fig. 2D)。相互作用影响下的多个神经元的富集,说明某些确定的转录因子coassociations与远程相互作用有着紧密联系。目前在几乎所有的、具有丰富的调控作用的神经元中,RAD21CTCFSMC3具有很高的百分比。ZNF143占据大多数但不是所有的神经元。这些结果强调了这四个因素在建立和维护(3D)染色质结构的核心作用。在这个区域,许多神经元和转录因子互相结合(Fig. 2E,F)。这些神经元倾向于包含TSS的区域,或者可能代表高结合率的靶标区域,与多个转录因子结合的基因位点往往标志着高表达基因的启动子结合。正如研究人员发现,其在远程的相互作用中具有明显的富集(P = 5.9X 10-62, Fishers exact test),研究人员发现了这些高结合率的靶标区域,同时,这些高结合率的靶标区域具有与其他高结合率靶标区域相互作用的迹象(P = 4.5X10-271, Fishers exact test) (Boyle et al. 2014)

Figure2

研究人员首先研究了染色质状态的远端相互作用区域对基因表达的影响(Fig. 3A),并观察到一个明显的趋势,其中,与转录起始位点的相互作用(TSS),转录区域(T),或增强子(E)导致高度基因表达,轻度的相互作用(WE)或CTCF区域导致中等基因的表达,相互作用弱的区域导致低等基因表达。这些结果表示,染色质结构(3D)与转录活性显著相关,因此,在构建调控网络和调控模式时,这是一个重要的特征。其次,所有类型的远端染色质状态影响基因表达,远端染色质状态的类型可预测功能性影响。

相比于其他11个细胞株的研究,基因在K562细胞株特异性表达,该基因富集了两倍K562增强子-启动子相互作用(P <0.05, Fishers exact test) (Fig. 3B),没有其他类型的相互作用表现了这种富集。其中启动子-启动子的相互作用在广泛表达的基因中表现富集。

已说明增强子在调节转录中的功能性作用,准备建立细胞特异性基因表达模式,研究人员接下表明对应“转录因子活性”的基因非常富集(1.7-fold, P = 0.00079, Fishers exact test with Benjamini-Hochberg correction)。这也表明,在调控网络中扩大增强子-启动子的相互作用,不仅可能参与调控这些转录因子,也能作为这些转录因子的下游靶点。

研究人员在良好的人LCL GM12878中靶定的RAD21进行了CHIP-seq实验。通过控制RAD21结合位点,确定了两种细胞株之间相互作用的差异。FDR0.5,发现有1133个存在差异的相互作用,GM12878K562中分别存在685448个相互作用差异(Fig. 3D)。启动子在细胞株顶端的重叠的基因,其相互作用在该细胞类型中能够高度表达(Fig. 3E) (P < 0.01, Wilcoxon signed rank test),说明这些相互作用在某些特定的细胞类型中可能起到调节作用。正如Figure 3F所示,TSS-增强子的相互作用子细胞株特异性相互作用中高度富集(P < 0.01, Fishers exact test)。增强子是所知的最易调节的一个元素,进一步证明了增强子-启动子的相互作用比其他任何类型的启动子的相互作用更具有可变性。

Figure3

标记相邻的各个循环和各循环内部的组蛋白,来收集相互作用(Fig.4A)。出现了5个不同的组合。第1组的特点是短期的调节反应,锚定区域标记活跃,TSS-TSSE-TSS调节反应类型富集(Fig. 4AE)。这组可能是调节循环事件中的启动子和远端调控原件。第2组,第3组和第4组不富集标记组蛋白和包含锚定区域的GO注释(Fig. 4A,D)。相反,他们的特点是相对较远的调节反应,在循环区域内部GO富集,并协调基因表达(Fig. 4BD)。第2组和第3组包括有活性组蛋白标记,具有较高的基因表达,并富含包括“代谢过程”和“染色质组织” GO注释(Fig. 4C,D)。第4组的基因循环包括有非活性区域,富集有一组完全不同的GO注释,包括“信号”、“发展过程”和“细胞黏连” (Fig. 4A,D)。第5组具有无特征的组蛋白,其特征在于由长途的调节反应,无论是在锚定或循环中均没有显示GO富集。

通过分析调节作用结果表明,远端染色质的调节作用可能至少从两种途径来调节基因的表达:(1)通过聚集启动子和远端调控元件(2)通过创建共享基因表达模式的功能相关基因的大结构域。

Figure4

研究人员对比远端调控网络与近端调控网络,发现其在转录因子关系、层次结构存在实质性差异。将两个调控网络合并为单独的调控网络,调控信息的整合为K562细胞株中结合的转录因子提供了一个更为完整的视图。

Figure5

对每个转录因子的直接和间接靶标作GO分析,计算近端和远端P-value的对数比,将比例绘制热度图(Fig. 6A).。正数表示近端靶标的富集,负数表示远端靶标的富集。通过远端转录因子的结合,GO注释主要为动力学和细胞类型特异性过程,包括“信号传导”、“免疫系统过程”和“应激反应”。其他的过程,例如“结合转录因子”,受远端和近端同时调节(Fig. 6A;)。大多数GO注释主要通过直接结合进行调节,然而一些GO注释受远端转录因子调节。

在进一步研究中发现,通过远端和近端的调控作用中,不同类型的转录因子参与不同调节生物学过程。包括TAF7EZH2在内的一些转录因子,GO注释仅表现出在近端富集,其他的表现有近端和远端富集。许多这样的转录因子通过近端结合的调节和远端结合的调节过程完全不同。该研究对细胞核中的调控区域组织提出了新的机制和功能认识。

Figure6

参考文献:

Genome-wide map of regulatory interactions in the human genome. Nastaran Heidari et al. Genome Res. 2014

作者简介:

张奇伟:清华大学信息学院与医学院双聘教授,清华信息国家实验室合成与系统生物实验室主任,首批千人计划教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第三课题组负责人。主要科研领域与方向:计算生物学与生物信息学;合成生物与系统生物学。