运用溯祖理论分析方法区分荠菜的起源是异源多倍化还是同源多倍化

多倍体化是植物物种形成的一种重要方式。更近的报告估计,有多达15%的被子植物和31%的蕨类植物在物种形成过程中都伴有倍性水平的变化。多倍体植物可以通过同源多倍性(染色体来自同一物种)或者异源多倍性(染色体来自不同的物种)出现。瑞典乌普萨拉大学进化生物学中心Martin Lascoux教授、多伦多大学 Stephen I. Wright教授合作上海生命科学研究院的研究人员运用了两种不同的溯祖理论方法来确定荠菜四倍化的时间和模式。该研究发表在2012年《Molecular Biology and Evolution》杂志上。

在研究多倍化时,荠属是一个很有用的属。因为该属包含的一些物种有着不同的交配体系,以及不同的多倍化程度,它包含了三个物种:一个自交的四倍体物种C. bursa-pastoris和两个二倍体物种,即杂交的C. grandiflora和自交的C. rubella。之前的研究表明C. grandiflora是C. bursa-pastoris和C. rubella的祖先,更近的研究确定了C. rubella是由C. grandiflora分化而来,并推测分化年代大概在末次盛冰期。

目前为止,C. bursa-pastoris究竟是同源多倍体还是异源多倍体仍然没有定论,两种观点先前都有研究结果支持。早期的同工酶电泳实验表明C. bursa-pastoris跟C. grandiflora, C. rubella都有共同的等位基因,所以认为它是异源多倍体。但是后来的叶绿体基因组限制性位点的变异又表明C. bursa-pastoris是来自C. grandiflora的同源多倍体。更近的研究显示,C. bursa-pastoris可能是一种异源多倍体,但基因组不是来自C. grandiflora和 C. rubella。为了比较数据适合异源多倍性模型还是同源多倍性模型,研究人员运用了一种新的溯祖理论方法。首先,估计了两个物种隔离迁移模型的参数,然后使用这些参数进行联合模拟以确定数据适合哪种模型。然后,运用近似贝叶斯算法处理两个模型,并检验这两个假设,是异源多倍化模型还是同源多倍化模型。如图1所示,如果C. bursa-pastoris异源多倍化模型是正确的,那么它的两套部分同源基因组的歧化时间要比C. bursa-pastoris是由C. grandiflora分化而来的时间更近。

汇总统计量和估计物种树

研究人员计算了核酸多样性π和中性检验统计量Tajima’s D用以统计同义突变位点。分别以成对的方式得到了四种基因组中的联合突变频谱,以及其共有多态性、独特多态性、固定差异的数量。运用层次贝叶斯模型来估计荠属的物种树。贝叶斯估计物种树算法模型中假定:1.每个群体中没有子群体;2.物种分化后没有基因流;3.基因座上没有重组。

MIMR和ms模拟

先利用联合突变频谱对群体间的多态性进行一个汇总。这里的两两群体指的是C. grandiflora/C. bursa-pastoris A,C. grandiflora/C. bursa-pastoris B,以及C. bursa-pastoris A/C. bursa-pastoris B这三对组合。存在于特定群体(群体1和群体2)的多态性位点数目分别为s1和s2,存在于两个群体中的共有多态性位点数目记为sp,在群体1(群体2)中固定下来的衍生突变记为f1(f2)。研究人员用ms软件和MIMAR对两种多倍化模型进行了模拟。在同源多倍化模型中,用T1表示C. bursa-pastoris的两套基因组A和B从C. grandiflora中分化出来的时间;在异源多倍化模型中,用T’2和T’’2分别表示C. bursa-pastoris A和C. bursa-pastoris B从C. grandiflora分化出来的时间。分别在两种模型下对14个位点中的每一个位点都进行10000模拟,每次模拟都假设从各个物种中抽取10条序列。然后对于每次模拟的序列,计算统计量s1,s2,sp以及f1,f2。(如图1)

根据模拟的结果,研究人员可以找出能够很好区分两种多倍化模型的统计量,发现s1,s2在两种模型下几乎相同,这是因为专有多态性只反映物种内家系及突变的信息,不能反映物种间多态性,所以在分析物种形成方面提供的信息有限。所以在以后的分析中研究人员不能使用专有多态性位点的信息。然而f1,f2以及sp却能很好的区分这两种模型。这是因为固定的差异对应于物种形成的早期发生的突变,跟物种的分化时间密切相关。而共有多态性反映了两个物种共同祖先的多态性,从而蕴含着共同祖先的群体大小及物种分化时间信息。为了使这两类多态性位点的统计量更好的区分两种模型,研究人员定义了新的统计量。

如果用f1(C.bp A, C.g)和f1(C.bp B, C.g)分别来表示,在与C. grandiflora比较时,C. bursa-pastoris A和C. bursa-pastoris B基因组中固定差异位点的数目,则定义:fix_diff = f1(C.bpA,C.g) - f1(C.bpB,C.g)。为了方便,研究人员用f1来定义fix_diff,f2的结果同上。类似的用sp(C.bp A, C.g)和sp(C.bp B, C.g)分别表示C. grandiflora跟C. bursa-pastoris A和C. bursa-pastoris B的共有多态位点的数目,且定义shared_diff = sp(C.bp A, C.g) - sp(C.bp B, C.g)。

实验中测得的序列多态性来计算定义的统计量,并用检验C. bursa-pastoris 是同源多倍体的假设。对于实验数据,研究人员计算每个基因的fix_diff和shared_diff,并计算这两个统计量在14个基因上的均值。同样,对于每次模拟的数据也做同样的计算,这样10000次模拟之后,研究人员就可以得到两个统计量各自均值的分布。在同源多倍化模型下,研究人员采用双尾检验来计算p值,如果p值小于0.05,则拒绝同源多倍化模型假设。同样检验观测值与异源多倍化模型假设的适合度,做法类似,但在计算p值时采用单尾检验。

研究人员还计算了定义的统计量的观测值,并与模拟的分布进行比较。发现在同源多倍化模型下,两个统计量的观测值没有显著偏离模拟得到的分布。而在异源多倍化模型下,两个统计量都显著偏离模拟的分布。所以,研究中不能拒绝同源多倍化模型,但可以拒绝异源多倍化模型。

近似贝叶斯算法(ABC)模拟

对同源多倍化模型进行ABC的模拟。发现大多数参数的后验分布都有明确的模式,表明这这些数据与模型吻合。点估计显示C. bursa-pastoris的基因组A和B第一次发生分化的时间在649,000年前。第二次发生分化的时间接近第一次分化的时间,说明C. bursa-pastoris的基因组A和B之间发生分化的时间接近它们从C. grandiflora发生分化的时间,从而有力的说明了C. bursa-pastoris的同源多倍体模型,并且适合度检验也表明了同源多倍化模型与数据相吻合。但是Tajima’s D并不能很好的与数据吻合,可能是由于种群分化后的膨胀。

基因转换和基因座重组

虽然结果显示C. bursa-pastoris的部分同源基因之间少有基因流,表明不存在大规模的基因转换和历史性基因重组事件,但是研究人员还是进行了明确的实验来证明,使用geneconv 软件分析并没有得到C. bursa-pastoris的部分同源基因之间的基因转换的证据。但可能存在基因座位间的转换。因为在二倍体物种中这些位点具有高度多态性。所以重组可能源自于祖先群体而不是由于部分同源基因间的转换。

基因转换可能对重复基因及基因组的历史产生了强烈的影响,而且荠菜属中严重的基因转换也影响到了研究人员对结果的判断,使研究人员将异源多倍化模型看出是同源多倍化模型。事实上研究人员发现的C. bursa-pastoris中存在大量基因转换现象,可能是由于祖先基因的保留或基因的渗入造成的。

研究人员的结论可能被基因摄入的现象所影响。之前的研究曾发现C. rubella渗入C. bursa-pastoris的证据。由于C. rubella和C. grandiflora的分化年代要晚于C. bursa-pastoris和C. grandiflora,因此从C. rubella渗入C. bursa-pastoris的基因会和C. grandiflora比较相似而被分到A组基因,从而增大模拟数据中A和B两个基因组的差异,所以导致研究人员认为是异源多倍化模型。

通过此次研究,研究人员认为:C. bursa-pastoris是源于C. grandiflora的基因组倍增,时间不到一百万年。需要注意的是,研究人员所有的建模方法,重点都放在物种形成和分化的简化模型上,这可能会导致模型的错误,尤其是在异源多倍化模型中。为进一步确定研究人员的结论,还需要在分析过程中采用大规模的基因数据,需要考虑单倍型结构以及染色体歧化。

参考文献:

Coalescent-based analysis distinguishes between allo- and autopolyploid origin in Shepherd's Purse (Capsella bursa-pastoris). St Onge, K. R., et al. Mol Biol Evol.2012

作者简介:

Martin Lascoux:瑞典乌普萨拉大学进化生物学中心教授。主要从事进化与遗传学研究。

Stephen I. Wright:多伦多大学教授

李海鹏:中国科学院上海生命科学研究院马普学会计算生物学伙伴研究所研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第伍课题组学术骨干。主要研究方向为进化基因组学,群体遗传学。