新工具qDNAmod揭露DNA修饰在细胞间的异质性

对于遗传物质相同的一群细胞,每个细胞个体通常具有异质性,而且这种异质性对个体在不同环境中的生存是极其重要的。DNA修饰是调控表型异质性的重要表观调控因子。单分子实时(The single molecule real-timeSMRT)测序技术为检测大范围DNA修饰提供了一个独特的平台,能检测到的修饰包括N6甲基腺嘌呤(N6-methyladenine6-mA)N4甲基胞嘧啶(N4-methylcytosine 4-mC)5甲基胞嘧啶(5-methylcytosine 5-mC)。清华大学自动化系和信息国家实验室张学工教授领导的科研团队用一种新的生物信息学工具qDNAmodSMRT测序数据进行全基因组细胞间DNA修饰异质性的定量分析。能够分析遗传物质相同且基因组中相同位置具有不同修饰的单倍体细胞的比例。通过对肺炎双球菌的ST556菌株的SMRT测序数据进行分析确定qDNAmod是可靠的。在一个无性繁殖的ST556菌株中利用qDNAmod检测到细胞间存在大量6-mA异质性。后续生物化学分析揭示两类限制修饰系统的识别序列是qDNAmod最初识别DNA修饰在细胞间异质性主要位点。因此,qDNAmod是研究全基因组范围DNA修饰引起细胞间表型异质性的重要工具。该成果发表在201410月《Nucleic Acids Research》杂志上。

无论对原核生物,还是真核生物,DNA修饰对许多重要功能。常见的基因修饰有5-mC4-mC6-mA。在遗传物质相同的细胞群体中,相同位点的DNA修饰在细胞间是不同的,又称为细胞间DNA修饰的异质性。在许多真核和原核生物中细胞间DNA修饰的异质性是引起表型异质性的主要原因。在大肠杆菌中DNA修饰导致表型异质性被研究得最清楚,特别是ON/OFF可逆的双稳态或肾盂肾炎相关菌毛(the pyelonephritis-associated piliPap)和43抗原(antigen 43Ag43)的相转变。PapAg43的表达受papagn43基因启动子区域GATC序列重复序列的甲基化状态调控。在一个克隆细胞群体中不同细胞间Dam甲基转移酶对papagn43基因启动子区域GATC重复序列甲基化水平不同导致了PapAg43ON/OFF表达,被称为相转变。最近在人类的病原菌流感嗜血杆菌、淋病奈瑟氏菌、脑膜炎奈瑟氏菌、幽门螺旋菌和卡他莫拉菌中新发现相转变调节子是DNA修饰导致细胞间异质性的重要例子。编码第III类限制修饰系统甲基转移酶的重复序列的突变驱动相转变。在不同细胞中甲基转移酶活性的ON/OFF相转变导致在DNA修饰、基因表达和细菌的外界压力响应方面具有细胞间异质性。因此,对DNA修饰导致的细胞间异质性进行全基因组分析有助于理解表型的变化。

由于传统检测技术的限制,以前在全基因组范围DNA检测局限于5-mCSMRT测序技术的出现为全基因组范围内检测大范围DNA修饰,包括单分子水平的5-mC4-mC6-mADNA损伤,提供了一种新平台。SMRT测序技术能够成功应用到5-hmC的分析、许多细菌的甲基化分析和DNA损伤分析。SMRT测序技术也能使DNA修饰异质性得到有效的定量检测。但是,SMRT测序技术独特的数据类型对现有的数据分析方法来说是个挑战。主要困难在于活跃变化碱基的信号经常是未知的,而这些信号正是需要从这些数据中了解的。一种处理方法是通过使用它的IPDsyk,为它的kth位点配备一个标准的双组分混合模型,以便于IPD活跃变化碱基的分布能从yk得到学习。当有合理数量的活跃变化碱基覆盖kth位点时,这种方法是精确的。但是,在这种情况下如果yk不能提供足够的活跃变化碱基IPD分布信息时,由于没有活跃变化碱基覆盖kth位点,这种方法就是不精确的。只利用yk的其他任何方法不能很好的适用也是由于相同的原因。

为了解决这个问题,研究人员发明了一种基于经验贝叶斯混合模型的生物信息学工具qDNAmod。这个模型使用全基因组数据从可能活跃变化的碱基中获取活跃变化碱基的IPD分布。qDNAmod使用的经验贝叶斯混合模型是一种常规的方法,这种方法既能够定量检测已知修饰类型,包括5-mC4-mC6-mA,也能检测修饰类型的细胞间异质性。qDNAmod首先用模拟的数据和抗多种药物的病原菌肺炎双球菌的ST556菌株SMRT测序技术进行测试。在克隆的肺炎双球菌的ST556菌株中用qDNAmod分析发现基因组中有大量DNA修饰的细胞间异质性,意味着多亚种群的存在。进一步的功能实验证实了经qDNAmod预测的第I类限制修饰识别模体的不完全甲基化。从目前情况看,qDNAmod是第一个以数据为基础建模工具能够从SMRT测序技术中检测DNA修饰的细胞间异质性, qDNAmod在肺炎双球菌的ST556菌株中检测结果也是第一次在细菌全基因组范围分析细胞间腺嘌呤甲基化的异质性被报道。

经验贝叶斯混合模型

SMRT测序技术包含了被测序的DNA分子四种碱基的特性以及实时的DNA聚合酶活性。DNA聚合酶活性通过IPD和脉冲宽度(pulse widthPW)测定。IPDDNA修饰高度敏感,一个碱基的修饰可能改变IPD的分布。SMRT采用边合成边测序策略。因为DNA修饰IPD发生变化的碱基称为活性变化碱基,其他的碱基称为常规碱基。SMRT采用环形测序策略,使一个碱基能够被测序很多次,得到多个IPDs。通过比较相同测序内容常规碱基IPD分布与未知碱基的IPD线路,可以推测被测碱基是否为活性变化碱基。

模拟数据的性能评估

由于循环式DNA文库SMRT测序技术的采用,导致DNA片段长度短的序列被测序次数多,DNA片段长度长的序列被测序次数少。

考虑到覆盖度,研究人员用六组模拟数据比较经验贝叶斯混合模型和不考虑全基因组范围活性信息的标准混合模型。结果表明标准混合模型倾向于高估DNA修饰的比例,在DNA修饰比例低的情况下有很大的误差;根据经验贝叶斯混合模型估算的DNA修饰比例在大部分数据组中都接近真实值。但是,当作用面积小且每个碱基只测序一次的情况下,经验贝叶斯混合模型会低估DNA修饰的比例,这个缺陷可以通过一个碱基测多次的方法进行弥补。

经验贝叶斯混合模型与标准混合模型在模拟数据上性能比较如上图

ST556DNA修饰异质性的定量检测

发现DNA修饰模体。研究人员对ST556的基因组DNA进行SMRT测序分析。为了检测潜在的与生长阶段相关的DNA修饰,研究人员提取了稳定期ST556的基因组DNA。没有扩增的DNA样本通过SMRT测序。经过测序的全基因组扩增DNA样本作为修饰了的负对照。测序结果通过BLASR匹配到参考基因组ST556,每个碱基位点的DNA修饰比例通过qDNAmod计算。

如果估计的DNA修饰比例高于0.3,研究人员就认为这个位点是值得关注的修饰位点。研究人员鉴定了四个重要的模体,5-TCTAGA-35-TGA(N)7TATC-35-4-mCG(N)8TTTG-35-4-mCG(N)8TTCG-3。根据对变化类型DNA修饰的IPD分析,SMRT测序数据显示这些模体中的修饰包括6-mA。基因组中这些模体的准确位置需要以后进一步定位。根据限制修饰系统识别序列的特征,其中一个模体5-TCTAGA-3与一种二型限制修饰系统酶XbaI的识别序列是相同的。

qDNAmod揭示细菌基因组内甲基化异质性状态如上图

甲基转移酶识别模体的变化。为了鉴别SMRT测序在ST556基因组中检测到的模体甲基化对应的甲基转移酶。研究人员测试了ST556中推测的一型和二型限制修饰系统和模体中甲基化的活性。SMRT鉴定的四种典型的甲基化模体插入到限制修饰系统基因的3‘端。重组质粒从缺失了所有已知甲基转移酶活性的一株大肠杆菌株ER2796,通过限制酶检测序列模体的甲基化状态,未甲基化序列能够被限制酶切割,而甲基化序列不能被限制酶切割而被保护起来了。

本文是第一次在S. pneumoniae中鉴定出三种新的限制修饰系统。

DNA甲基化状态的检测。通过SMRT测序数据从ST556中鉴定出四种限制修饰识别模体,研究人员用qDNAmod评估这四种限制修饰识别模体的DNA甲基化比例。研究人员参考能够作为修饰目标模体的位点。数据分析显示一型限制修饰模体的甲基化水平明显低于二型限制修饰模体。基因组中部分修饰模体的数目为1646。这些结果显示在ST556基因组中细胞内DNA修饰的异质性是广泛存在的。

因为根据SMRT测序检测到的DNA修饰是链特异性的,有四种潜在的限制修饰状态可能解释每个假定模体的部分修饰结果:DNA双链都被修饰了、DNA双链都未被修饰、仅仅正链被修饰了和仅仅负链被修饰了。研究人员用一种关联分析确认以上四种甲基化状态哪种存在于ST556基因组。结果表明限制修饰模体中都是DNA双链都被甲基化的,也就是说,DNA双链其中之一被甲基化的情况很少或几乎不存在。

SMRT测序数据来说,qDNAmod可以检测细胞内DNA甲基化(6-mA)异质性。在ST556基因组中,经qDNAmod预测发现基因组甲基化(6-mA)异质性在细胞内是普遍存在的。对SMRT测序结果深入分析可以发现带有6-mADNA模体有很多。

甲基化保护试验检测ST556甲基转移酶基因识别位点如上图

本次研究不仅发现了一种生物信息学工具——qDNAmod,也针对SMRT测序数据建立了一种DNA修饰异质性检测的数据分析框架。因为SMRT测序数据含有基因组范围内用传统检测方法无法识别的修饰类型,研究人员的研究为在未知领域定量检测DNA修饰异质性开辟了道路。

参考文献:

qDNAmod: a statistical model-based tool to reveal intercellular heterogeneity of DNA modification from SMRT sequencing data.Feng, Z. et al. Nucleic Acids Res .2014 Oct.

作者简介:

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。