选择同义突变位点增加植物中miRNA结合位点周围的可亲性

 在原核生物和真核生物中各种各样的生物学机制中,同义密码子是广泛选择的。miRNA功能可能影响miRNA靶点附近的同义密码子选择。东南大学生物医学工程系顾万君研究员团队合作芝加哥伊利诺伊大学医学系周童团队,通过4个植物基因组miRNA靶点附近同义密码子用法的全基因组分析。研究人员观测到一个大体的趋势,植物中miRNA靶点周围的位点可亲性得到增强。靶基因中的GC含量能够在一定程度上解释miRNA靶中位点可亲性变化的原因。GC含量丰富的基因比GC含量贫瘠的基因中的miRNA靶显示了更强的选择信号。基因的密码子使用偏好、miRNA和它的靶点的保护水平对位点可亲性也有一些影响,miRNA或它的靶点的表达水平以及miRNA的活性机制不会导致miRNA靶点可亲性变化。该研究发表在2012年的《Molecular Biology and Evolution Journal》杂志上。

由于同义编码位点的突变不改变编码蛋白质序列,所以通常被认为是中性进化,在这种假设下,蛋白质编码序列(CDS)里的功能位点可以通过比较非同义替换率和同义替换率来确认。但是,越来越多的证据显示同义密码子在真核生物和原核生物中都有选择压力。在细菌、酵母、蠕虫和植物中一个有名的选择约束是翻译的准确性和有效性。在哺乳动物体内,同义编码的选择是为了稳定DNA二级结构、合理的核小体定位、最佳的mRNA稳定性、有效的mRNA剪接、适当的蛋白质共翻译折叠和有效的翻译起始。

一些研究表明miRNA的功能也可能影响同义密码子的选择。miRNAs可以补充地结合到他们的靶RNA序列,从而抑制平移。RNA退化或裂解实验证明老鼠中miRNANanogOct4以及Sox2的相互作用编码区域可以调节胚胎干细胞分化。miRNA靶位点周围的一些结构和序列特征,尤其是miRNA靶位点的可亲性被认为和miRNA结合相关。因此,miRNA靶位点周围的同义编码通过使miRNA靶区域更容易获得而被选来促进miRNA结合。

和动物不同,植物中大多数的miRNA靶点是位于蛋白质编码区域。植物中miRNA靶点的计算预测是更有效的,因此,研究人员分析了4个植物基因组去验证研究人员的假设。研究人员对每个miRNA靶区域来计算位点可亲性。为了判断同义编码选择对位点可亲性的意义,研究人员改变了miRNA靶位点附近的mRNA序列并且估算随机期望值中野生型miRNA靶区域位点可亲性的偏差。研究人员检测了miRNA靶位点周围的同义突变位点是否有增强植物中位点可亲性的选择信号。研究人员还讨论了一个基因组在miRNA靶点中的位点可亲性是否有变化。如果miRNA目标在物种间有变化,研究人员将进一步调查可能影响位点可亲性的因素。

材料和方法

研究人员研究了拟南芥(ath)、水稻(osa)、毛果杨(ptr)和玉米(zma)四种植物。所有四个基因组的蛋白质CDS都是通过BioMart下载自Ensembl。有多个转录的基因,研究人员选择转录最长的基因。

研究人员从miRBase下载这些物种中已经知的miRNAs。用psTarget服务器识别CDSs中公认的miRNA靶点。CDSs中所有的miRNA靶点区域可以在补充数据1中得到。

miRNAs是动态的获得并且沿植物进化丢失。一些陆地植物中的miRNAs保存的很好,

研究人员划分拟南芥中的miRNAs为三个组,-A.thaliana unique miRNAsA.thaliana- and Arabidopsis lyrata- specific miRNAs以及conserved miRNAs。研究人员从Fahlgren获得每个miRNAs的保护类别。相似的,miRNA靶点区域在进化过程中动态获得或损失,研究人员划分拟南芥中的miRNA靶点区域为两个组,特定区域和保守区域。

为了判断是基因表达还是miRNA表达影响miRNA靶点区域的位点可亲性,对拟南芥中的mRNAsmiRNAs,研究人员从植物MPSS数据库中下载大规模平行测序技术(MPSS)数据。研究人员用两种不同的方法从MPSS数据的估算表达量。研究人员概括所有组织中每个mRNAmiRNA中测序短标签的数量(Expsum)作为表达量的测试方法之一。除了Expsum,研究人员计算每个mRNAmiRNA中测序标签的组织数(Exptissue)作为另一种测量方法。为了估计测序错误导致低表达量的假阳性,一个组织中研究人员只考虑有4个或更多标签的mRNAsmiRNAs

位点可亲性代表代表开放miRNA靶点区域和RISCs结合的难度。在研究人员的研究中,一个miRNA靶点区域包含miRNA直接目标的21个核苷酸、17个侧翼上游的核苷酸和10个侧翼下游的核苷酸。研究人员用△Gopen确定每个miRNA靶点位点可亲性的量。△Gopen是靶点未配对区的靶区域整合所有二级结构的自由能和所有靶区域结构的的自由能的差异。除了△Gopen,研究人员计算靶区域二级结构的自由能(△Glocal)来测量miRNA靶区域附近的RNA稳定性。研究人员用PITA软件包中的RNAddG4程序及默认参数计算△Gopen 和△Glocal 。在RNAddG4中,RNAfold被用来计算RNA二级结构的自由能。研究人员用mRNA序列的片段而不是全长去计算△Gopen 和△Glocal 。输入mRNA片段包括miRNA靶区域中的48个核苷酸和侧翼上游及下游的140个核苷酸。

由于miRNA靶点对miRNA的确认和功能是重要的,miRNAs的编码目标在随机化中没有被打乱。研究人员对每个基因都采集了1000个重采样序列。

对真正的mRNA序列和每个置换序列,研究人员计算 △Gopen, Glocal,GC 含量。为了确定偏差,研究人员对每个靶点计算 △Gopen ZGopen)的Z-score

结果

植物中同义编码被选来增强位点可亲性

植物中靠近miRNA靶点区域首选GC含量贫瘠的密码子

miRNA靶点区域中基因组内ZGopen的变化

讨论

遗传密码的简并度允许蛋白质CDS携带丰富的附加信息。同义编码和DNA结构、核小体定位、RNA稳定性、RNA剪接、翻译精确性和有效性以及翻译起始相关。最近,miRNA靶点的同义突变被观察到可以改变miRNA活性并且致病。本文研究中,四个植物基因组中miRNA靶点附近容易产生同义编码。miRNA靶点区域的位点可亲性高于随机靶基因的氨基酸序列、密码子使用偏好和miRNA靶位点。

沿着mRNA序列miRNA靶点区域附近ZGopen 值是特异的miRNA靶点区域附近的位点可亲性和miRNA功能相关。当滑动窗口从miRNA靶点区域移动到上游或下游时ZGopen 逐渐增加并转变为正值。其它滑动窗口中的 ZGopen 正值表明基因其它位置额mRNA片段可能是局部结构。这和先前观察到的一些器官中同义编码被选来mRNA二级结构一致。

发现了当一个区域有17和侧翼上游和13个侧翼下游核苷酸时,位点可亲性和miRNA活性之间的相关度最大。Hausser等人表明人类miRNA靶区域中有12个侧翼上游和12个侧翼下游核苷酸的靶区域的位点可亲性可以解释大多数活性变化。研究人员的结果观察到植物基因组中蛋白质CDS中相似区域的位点可亲性是高度进化选择的,这也就表明它在miRNA活动中的重要生物地位。

除了位点可亲性,靠近miRNA靶点区域的RNA二级结构在miRNA活性中也是重要的。一些物种中,研究人员发现靠近miRNA靶点RNA稳定性降低。对松动的二级结构,miRNA靶位点周围首选GC含量贫瘠的密码子。位点可亲性和RNA二级结构彼此相关,计算时位点可亲性是以RNA二级结构为基础的。研究人员的研究结果中,所有基因组的ZGopen  ZGlocal 都显著相关。但是,miRNA靶点区域中减少位点可亲性的选择信号比减少当地RNA稳定性更明显。这和两个先前的研究中观察到的位点可亲性和miRNA活性的相关性比RNA二级结构更强一致。

参考文献

Selection on Synonymous Sites for Increased Accessibility around miRNA Binding Sites in Plants. Wanjun Guet al.Mol. Biol. Evol. 2012

作者简介

顾万君:东南大学生物医学工程系,儿童发展与学习科学教育部重点实验室研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组学术骨干。主要从事生物信息学,计算生物学方面研究。

周童:芝加哥伊利诺伊大学医学系的个性化呼吸医学研究所、肺科、急救护理科、睡眠和过敏科研究员。