结合Hi-C数据和亲缘关系预测人类基因组中远端调控元件的靶基因

Hi-C技术是通过高通量测序捕捉染色体形态结构以及决定reads的靶基因。复旦大学生命科学学院生物统计学研究所田卫东教授研究团队通过Hi-C数据确认DREs基因对具有强亲缘相关性,结合Hi-C reads数量和亲缘关系可以预测远端DRE靶基因的关系。该研究发表在2013年《Nucleic Acids Research》杂志上。

系统发育谱的产生和相关性

研究人员收集了在其它45个基因组中一个或多个同源序列的所有人类序列片段。并且确定了这些片段的起始和结束位置,然后用这些位置划分人类基因组为连续不重叠的序列片段。并对每一个序列片段都准备了一个包含01长度为45的系统发育谱;1表示这个序列片段在相应的物种中有一个同源序列,0则表示没有。所有序列片段内部相应序列区域的DRE或基因的系统发育谱通过片段的长度作为系统发育谱的加权平均数被计算。DRE序列区域作为DHS的值被确认,基因区域定义为序列区域从1000bpTSS到基因末端。然后,对于每个DRE和基因的结合,研究人员用它们的系统发育谱计算历史相关系数(PCC)

注释候选DRE-target 基因对

研究人员使用EnsemblUCSC基因注释来注释蛋白质编码基因,得到了22685个基因。如果一个Hi-C reads包含DRE和基因的序列片段,那么就把一个DRE基因对作为一个候选DRE靶基因对。虽然DRE区域显著富集Hi-C reads(表1A),但研究人员发现启动子区域的Hi-C reads显著减少(表1B)。通过检查DHS内部启动子Hi-C reads的分布,还发现Hi-C reads不仅仅是本地富集的(表1C)。DRE可能来自DHS内置启动子区域一个暂时的环状结构。Hi-C readsRNA聚合酶Ⅱ结合区的中心显著减少(补充表S1),在DHS内置基因区域显著富集(表1D)。因此,研究人员使用基因内DHS进行Hi-C reads映射。最后,得到35337425Hi-C注释的DRE基因对,并且作为候选DRE-target基因对。但是,只有4.5%在两个细胞系中(补充表S3A),其中大部分可能是假阳性。

结合Hi-C read数和系统发育关系去预测DRE-target基因对

对于一个给定的DRE和基因,研究人员首先以人类和45个其它脊椎动物之间的成对基因组比对为基础,分别对DRE和基因准备一个系统发育谱;然后,研究人员用这两个配置文件计算PCC(表2)。较高的PCC表明更紧密的亲缘关系。但是,PCC对基因组中的DRE和基因之间的距离有偏向性(表3A)。因此,研究人员集中研究距离>500kb或来自不同染色体的远端DRE

Hi-C注释远端DRE基因对是高度亲缘相关的。PCC的众数是0.60,和本底远端DRE基因对的0.35大相径庭(表3B)。另外,ChIA-PET也可以用来注释DRE-gene对。通过分析ChIA-PET注释的远端DRE基因对,研究人员发现以CTCFERRA抗体为基础被ChIA-PET数据注释的远端DRE基因对是高度亲缘相关的(表3C)。以RNA Pol II抗体为基础,用ChIA-PET 数据注释的DRE基因对没有亲缘关系,这和RNA Pol II区域周围Hi-C reads减少一致。因此可以推断DRE和它的靶基因高度亲缘相关。研究人员还发现当一个DRE基因对用大量Hi-C reads注释或者来自更多细胞系时,它可能有更高的PCC(表3DE)。因为这两个条件,希望观察到正确的DRE靶基因对更高的分数,这些结果进一步验证了DRE和它的靶基因是高度亲缘相关的。

基于以上的结果,用更高的PCCHi-C read数的Hi-C注释DRE基因对更可能找到正确的DRE靶基因对。研究人员通过计算两个复制细胞系中Hi-C注释DRE基因对的重复性确定PCCHi-C read数。

预测DRE-target基因关系的验证

研究人员用了两种方法去验证,最后结果表明,当相应的DREs被影响时,预测目标基因的表达更有可能受到影响,这和研究人员的预测一致。

预测DRE集群靶基因对功能分析

大多数的DRE集群只调节一个或两个基因,但是也有大量的DRE集群调节更多的基因。研究人员发现对一个给定的Resnik得分捷径,DRE集群的比例显著升高。这表明同类DRE集群调控的基因可能是功能相关的。研究人员也研究了同类DRE集群调控的基因是否是共表达的。结果证明确实如此。

预测DRE-target基因对的文献验证和应用

该研究中,研究人员集中在预测距离>500kb或者来自不同染色体的远端DRE靶基因对。未知基因的功能可以在DRE调控模式的基础上推测。疾病相关的非编码SNPs分析显示大多数位于调控元件内。研究人员的预测对解释DRE区域内疾病有关的SNPs的因果作用提供了一种宝贵的资源。

通过对预测DRE-target 基因对的分析,大量DREs的基因调控可能是功能相关并且共表达的。由于DRE-target 基因对不仅可以通过Hi-C数据找到,而且可以显示高亲缘关系,所以研究人员希望可以预测高质量的DRE-target 基因对。此外,这些预测已经通过组蛋白修饰模式和CREB淘汰细胞系中的不同基因表达模式验证了,由于一个read切断为两个reads不是很严格,所以仍然可能存在假阳性。另一方面,亲缘关系也不是一个灵敏的测量,可能会被基因或DREs附近的基因组环境影响。对于假阳性,第一,总会有一个减少假阳性的权衡。第二,在该研究中研究人员仅仅是分析了基因间的DREsDHS内的一个基因也可以是其它基因的DRE。第三,研究人员只集中精力在远端DRE靶基因关系。第四,不是所有的DRE靶基因都是亲缘相关的,特别是新进化的DRE靶基因关系。最后,DRE靶基因关系可能具有特异性,而研究人员的预测仅仅是基于两个细胞系。不过,研究人员的预测对实验生物学家设计新的实验去研究远端调控机制有很大的意义。此外,这些预测可以推断出无特征基因的功能研究。DRE靶基因的预测对说明位于DREsSNPs的因果作用也是重要的。

参考文献:

Combining Hi-C data with phylogenetic correlation to predict the target genes of distal regulatory elements in human genome. Yulan Lu, Yuanpeng Zhou and Weidong Tian*. Nucleic Acids Research 2013 Dec;41(22):10391-402. Doi

作者简介:

田卫东:复旦大学生命科学学院生物统计学研究所教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第五课题组学术骨干。主要研究方向:运用统计学、计算科学、生物信息学等手段进行算法开发,对组学数据进行整合分析并精确预测基因功能、基因-基因相互作用关系、基因表现型及疾病候选基因等。