人多功能能干细胞中non-CpG甲基化的单链特异性分布特征

甲基化是一种重要的防御、调控机制。在哺乳动物中,大部分DNA甲基化都发生在CpG位点,在少数细胞类型中明显检测非对称的non-CpG甲基化水平。清华大学生物信息学部张奇伟教授研究团队合作美国德克萨斯大学达拉斯分校、北京大学以及加利福尼亚大学的研究人员率先对non-CpG甲基化的单链特异性分布展开系统研究。该研究发表在20143月的《Nucleic Acids Research》杂志上。

研究人员利用分割比较的方法(divide-and-compare strategy)一起识别人类non-CpG甲基化单链特异性分布区域。Divide-and-compare strategy将数据集根据用户定义分为几个的标准分组。然后比较了不同分组的性质。如果分组中有类似的属性,该分组对应性能是多余的。相反,如果亚型具有不同的特性,该“Divide”的分组的性质有用的。

Divide-and-compare strategy方法

比较两种甲基化模式的序列偏好,计算人类和拟南芥中485mer的平均甲基化水平,计算并从高到低排序这48对 xyChG和 xyChH模式的平均甲基化水平。结果表明,对CHGCHH5-mer甲基化水平排名是人类(ρ= 0.98)比拟南芥(ρ= 0.84)相关性更高(图1B.说明在人类中,CHGCHH位点的甲基化在人类胚胎干细胞(ESCs)和诱导多能干细胞(iPSCs)中没有本质上的不同。

作为non-CpG甲基化不对称性更为明显的内含子的边界,研究人员选择了更详细的分析,对三个内含子具有代表性的地区包括50SSMI30ss

量化non-CpG甲基化的不对称,研究人员定义了不对称分(零表示没有偏度,正值表示高甲基化水平的反义链,反之亦然)。在内含子non-CpG甲基化斜分的分布也呈现明显的歪斜,在内含子边界尤其明显。与此相反,CpG位点甲基化在任何区域没有表现出这种倾斜(图2b)。发现单链特异性的non-CpG甲基化是在内含子而不是外显子。具体而言,内含子边界比内部表现出更明显的不对称的non-CpG甲基化。进一步研究了在H1ADS-iPSC的内含子non-CpG甲基化转录水平和倾斜分数的相关性来证明了解non-CpG甲基化的偏移可能与调整因素相关。研究人员还表明,高转录基因往往有更高的偏倚分数。(图2D)。以H150SS作为一个例子,研究人员计算了双链上每个reads平均甲基化水平和组成比例(图2e)。ACA是每条链最多甲基化的(8.2%的有义链,8.6%反义链),显示在这个区域的甲基化差异比CPH少得多(Figure 2e, top )。然而,与所有3mer序列的比例相比,ACA在链之间的实质性差异(10.1%14%的有义链、反义链;40%BIP;图2e,中间)。为了评估各模式如何有助于甲基化水平之间的差异,研究人员计算出各模式的平均甲基化水平在每个链的贡献和贡献的平均甲基化水平差异(图2 e,底部)。发现,通过DNA序列中的偏差在很大程度上导致两条链non-CpG中甲基化水平的偏倚。

实验中没有发现任何组转座因子有单链特异性CpG甲基化(图3A)。与此相反, SINEs and LINEsnon-CpG甲基化序列(图3b)但LTRs没有。SINEs,反义链比有义链的更易甲基化,与LINEs正好相反。通过比较两条链的SINEs, LINEs 3 -merNCH)的甲基化水平对,研究人员发现的在 LINEs没有3 -mer表现出链特异性甲基化水平(图3E),这是类似研究人员发现内含子的结果。然而,研究人员在有义链 的LINEs 发现ACA易甲基化模式更丰富。(3f)在 SINEs,在有义链上和反义链上ACA具有高度甲基化(3c)。通过研究转座因子群,还发现在全部SINELINE中单链特异性方式,non-CpG甲基化是分散的,不是在长末端重复序列(LTR)。 Alu元素的保守序列,促使研究人员分别在ALU单元和 MIR元素研究链特异性的non-CpG甲基化。虽然这两个ALU和 MIR元素在反义链比有义链表现出较高的non-CpG甲基化水平(图3b)。对比先前观察在SINEs的两条链的ACA甲基化水平主要是由于在Alu双链上ACA的对比甲基化水平(3 c)。研究人员进一步分析了高度甲基化的non-CpG位点的保守序列,发现non-CpG位点位于对Alu序列的反义链5’端末尾的25bp具有高度甲基化。(3g)这个位点是在TACAG前后和AluA-box之后,表明可能与RNA聚合酶III的制约关系。在Alus反义链中,non-CpG位点仅仅在A-box下游是高度甲基化的。

参考文献:

Characterizing the strand-specific distribution of non-CpG methylation in human pluripotent.Weilong Guoet al.Nucleic Acids Research.2014 Mar.

作者简介:

Matteo Pellegrini:加利福尼亚大学教授

张奇伟:清华大学信息学院与医学院双聘教授,清华信息国家实验室合成与系统生物实验室主任,首批千人计划教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第三课题组负责人。主要科研领域与方向:计算生物学与生物信息学;合成生物与系统生物学。