研究背景
针叶树在世界森林生态系统中占主导地位,是种植最广泛的树种之一。针叶树基因组属于大型基因组,存在高度重复序列(70%-80%),因此基因组组装难度较高。
研究者利用PacBio测序、Hi-C辅助组装等技术,组装获得了25.4Gb染色体水平的油松基因组。通过使用来自760个生物样本的大规模RNA-seq数据来辅助基因结构注释,揭示油松基因组扩展、生殖过程和适应性进化的多重基因组特征和分子机制,给针叶树进化研究提供了新思路,为今后进一步开展针叶树适应与发育研究提供了数据参考。
材料选择
35年生无性系优良油松的新芽
测序策略
● RNA
技术路线
研究结果
研究者首先通过Illumina测序,对油松基因组大小进行评估,随后利用PacBio测序数据进行自校正和组装,成功构建出24.4 Gb(96.1%,12条染色体)的油松高质量的染色体水平基因组。
针叶树中的基因通常多于二倍体被子植物,基因复制导致了许多基因家族的扩张。在基因复制的不同类别中,油松的旁系同源主要来源于分散重复(DSD),很少来自全基因组复制(WGD),油松发生近期全基因组复制事件概率较低。
图1.油松高质量基因组组装
油松的基因组存在大量的长内含子,总内含子/外显子长度与基因组的大小呈正相关,基因表达水平的差异与基因长度和内含子数有关。长基因的RNA剪接和DNA甲基化检测结果表明,几乎所有CG和CHG位点都发生了甲基化,DNA甲基化可能参与了长内含子的准确识别。
图2.油松基因组的基因空间结构和复杂性展示
通过功能富集分析,研究者发现了3,623个显著扩张的家族基因,主要参与生物和非生物胁迫反应。通过鉴定油松中的转录因子(TF)和转录调节因子(TR)家族,研究者发现对低温高度敏感的AP2/ERF基因家族成员可能在油松的低温适应中发挥关键作用。在候选基因编码酶鉴定中,萜烯合成相关基因在不同树龄的油松中有明显的表达模式,新形成的针叶可能是萜烯的主要合成部位。
图3.油松中萜烯的合成途径
被子植物中具有很多调节开花的关键基因,但油松中缺少很多同源基因。FT/TFL1-like基因是被子植物中调节开花的关键基因,油松中仅有2个拷贝,但在其他针叶树中一般有4-6个拷贝。研究者在拟南芥中做了转基因验证,过表达了这两个基因,转基因植株表现出明显的晚开花表型。
通过对油松基因组中12个高表达的MADS-box基因的酵母双杂交检测,研究者发现两个AGL6-like基因(PtDAL1和PtDAL14)在油松中有不同的表达模式,其中PtDAL14在生殖器官中特异性表达,与其他MADS-box转录因子蛋白相互作用,表明AGL6-like基因可能作为MADS-box转录因子之间相互作用的桥梁,从而形成互作网络。最后研究者提出了一个控制油松雌雄球果发育的模型,为今后针叶树生殖发育研究提供了一张蓝图。
图4.油松中12个MADS-box家族转录因子的表达及蛋白互作模型
从染色体层面看,基因组甲基化水平与油松的TE覆盖率显著相关,该研究发现携带TE的基因区域的平均甲基化水平远高于不携带TE的基因区域,但TSS和TES区域的平均甲基化水平始终较低。DNA甲基化对于TE基因组的扩张产生了影响,但未有证据表明,油松甲基化程度随树龄的增加而下降。LTR-RTs代表了大部分TEs,不平等重组(UR)是植物中一种重要的LTR-RT清除机制,针叶树的UR率可能比被子植物小型基因组低得多,SGS3-RDR6-RdDM通路可能是针叶树中主要的DNA甲基化途径。
图5.油松中DNA甲基化及转座子扩增
研究结论
在该研究中,研究者构建了当前大型基因组中连续性最好的高质量染色体水平的油松基因组。该研究发现转座子的不断扩张和缓慢清除是导致针叶树基因组巨大的重要原因,具有超长内含子的大基因往往表达水平较高。与被子植物相比,油松具有独特的生殖系统。油松基因组的构建为其独特适应性和发育研究、生殖生物学研究及基因组辅助育种进化和基因组学研究提供了重要参考。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!