OrysPSSP:一个对水稻和其他植物的小分泌蛋白比较的平台

中国科学院上海生命科学院植物生理生态研究所李轩研究员合作上海生物信息技术研究中心 郝沛研究员带领研究人员开发的平台OrysPSSP (http://www.genoportal.org/PSSP/index.do),涉及来自水稻和25个植物种类的100000多种SSP(小分泌蛋白),由一个核心SSP数据库和一个结合了各种各样用户工具和资源动态网页界面组成。现有的核心SSP数据库版本包含101048中已预测的SSP,是经过严格计算管道生成的。网页界面由8个不同的模块组成。该成果发表在201211月的《Nucleic Acids Research》杂志上。

数据库构造

数据资源

针对O. sativa ssp. Japonica的参考基因组,我们使用来自水稻注释工程(RAP)的IRGSP1.0。针对比较基因组分析,25种绿色植物收集自表1

对于预测SSP的验证分析,秧苗根,秧苗芽,稻穗和O. sativa ssp. japonica悬浮栽培细胞嵌合芯片数据集从GEO数据库收集。O. sativa ssp. Japonica的根和尖端组织的RNA-seq数据集从SRA数据库下载。O. sativa ssp. Japonica的蛋白质组数据集来自PRIDE数据库。

数据处理管道

建立了一个预测和注释O. sativa ssp. Japonica的数据管道(图 1)。

为预测SSP,通过以下三步生成一个核心数据集:

1.通过合并来自全基因组筛选和用Augustus (v2.5.5) FGENESH基因建模的数据来构建小多肽的起始数据集。全基因组筛选通过用EMBOSS软件包翻译六个框架中的水稻基因组来执行。为了恢复通过六个框架翻译方法可能丢失的多重外显子基因,基因建模程序:Augustus(v2.5.5) 和 FGENESH被用来预测由之前基因集结合的基因。产生的两个数据集(来自六个框架翻译的90140ORF和来自基因建模的22341ORF)被合并并且编码25 - 250 aa的长度的多肽被选择进行进一步分析。

2. 在以上合并数据集中筛选N末端信号序列。我们使用单机软件SignalP 4.0来预测一个信号肽及其裂解位点。有着N末端信号序列的分泌肽被留下进行下一步分析。

3. 筛查跨膜结构域。以上数据集因为跨膜螺旋的存在,被用TMHMM2.0c过滤,表明蛋白质存在于质膜或者一种内膜。

使用这个管道,共有101048个公认SSP被识别,大约三分之一是位于已知的基因的新ORF。为揭示这些肽的可能功能,来自核心SSP数据集的候选者被注释:1.保守结构域;2细胞器位置。HMMER(v3.0)被用来浏览PfamA数据库去识别水稻SSP的结构域,然后7755SSP基因被发现有一或多个结构域匹配。最后用TargetP1.1来预测SSP的细胞器位置。

数据库实现

由数据处理管道生成的核心数据集存储在一个MySQL数据库。他们包括一个SSP的基因组位置、蛋白序列、信号肽序列,结构域注释,目标细胞器,邻近基因以及一些验证信息。OrysPSSP应用工具包括“浏览”,“搜索和验证”,“基因组比较”和“BLAST搜索。”它们被做成一个动态的网页展示在Apache Tomcat网络服务器上。

网页界面和综合工具

OrysPSSP网页界面(图 2)包括8种不同的模块 

搜索和验证工具

Search & validation”工具模块提供了对数据库基本的搜索和过滤功能,包括文本搜索和根据染色体数目,链和/或注释过滤。

此外为了增加用户对这个平台体验的价值,我们通过整合三个层次的实验数据集来提供验证功能:1. 在转录水平,我们获得了幼苗根幼苗芽,稻穗和O. sativa ssp. japonica悬浮培养细胞的嵌合芯片杂交数据集;2. 伴随着在低表达水平检测转录的更先进的和更敏感的“RNA-seq”技术,我们从NCBSRA数据库获得O. sativa ssp. japonica RNA-seq数据集(SRP007395) 3.在翻译水平,我们添加了来自PRIDE的水稻组织的MS一个肽谱数据集。用户可以选择一个,两个或三个水平的数据在OrysPSSP上执行小分泌肽验证测试。这些参数用“AND”连接。

对其他植物物种进行比较分析

Compare Genomes”是一个应用比较基因组学的方法去搜寻来自O. sativa ssp. japonicaSSP的高级的工具模块。这对较为保守的水稻SSP和查找在其他植物物种有进化根源的模式SSP研究感兴趣的用户有帮助。该模块需要用户输入一个水稻SSP列表来开始比较搜索。用户输入的SSPs被用来查询搜索用户选择使用BLASTp物种的的基因组序列。虽然用户可以选择一个或多个物种的执行搜索,但是他们得用“or”连接。

BLAST 搜索工具

BLAST search”工具帮助用户搜索比对上用户感兴趣序列的SSP。用户可以在查询框输入他们的查询的物种或上传一个含查询物种序列文件。这个工具允许DNA,mRNA或氨基酸序列类型的查询。用户可以修改参数或使用默认参数。

参考文献:

 OrysPSSP: a comparative platform for small secreted proteins from rice and other plants. Bohu P, et al.Nucleic Acids Research, 2012

作者简介:

 李轩:中国科学院上海生命科学院植物生理生态研究所研究员,博士生导师。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组负责人。主要从事生物信息学和系统生物学的应用研究。

郝沛:上海生物信息技术研究中心 研究员/课题组长。长期从事生物信息学研究和数据挖掘应用工具的研发。