多个物种中一组通用的描述非编码RNAs的不同特征

高通量测序技术促进了大量未知转录组的确定,大多数都对应着新的非编码RNAsncRNAs),但是人类基因组中只有01%作为典型ncRNAs被注释。由于大量ncRNAs亚型的存在,全面识别一个物种中所有非编码转录组有一定的难度,一些ncRNAs只在特定的细胞类型或条件中表达,一些ncRNAs和信使RNAsmRNAs)有相似的性质。为了评估和描述新的ncRNAs,全面了解各种已知的ncRNA类型分享的signature特征很重要。特别是一些ncRNAslincRNAs从进化的角度来看并不是高度保守的,并且可能因为一些细胞类型或条件而缺失。所以使用任何单一类型的信息去全面地确定和描述新的ncRNAs有一定的困难。通过结合多条序列的特征、结构、进化保守性以及表达剖面图进行分析的方法被证明更有意义。由此,清华大学生命科学院鲁志研究员,清华大学生物信息学部张奇伟教授带领研究人员提出了一种新的方法——RNAfeature。它可以准确的确定多个物种间不同的ncRNA类型,这种方法用高通量实验数据通过结合ncRNAs已知的生物物理知识,并且涉及种内部分来描述每个物种的ncRNA特征。该成果发表在2014年的Nucleic acids research杂志

RNAfeature研究了600多个基因组和表观遗传数据,缩小到10个基本特性,包括序列、结构、表达剖面图和组蛋白修正信号。总的来说,该工作为以后的生物发现及新ncRNAs机制研究提供了全基因组资源。

材料和方法

RNAfeature有两个预处理过程(指定特征值和指定注释到基因组区域)和两个特征选择部分(种内和中间特征选择)。

RNAfeature预处理的第一部分,研究人员整理了5个物种(智人、小家鼠、秀丽隐杆线虫、果蝇和拟南芥)的622个高通量数据集。每100nt称为一个基因组bin。第二部分是通过它们的基因组元件(如CDS,UTR,rRNA,miRNA,lncRNA等)标记基因组bins。种内特征选择有一个预滤步骤和严格的探求步骤。

高通量数据的特征值

每个物种的参考基因组序列用50nt步长划分为100nt bins,特征值以每个bin水平计算。

序列和结构分值

GC含量通过GC碱基在序列中的比值计算,蠕虫、苍蝇和拟南芥的DNA序列保守性用BLASTn的默认参数测量。蛋白质保守性基于DNA序列保守性同样的资源用BLAST测量。RNA二级结构稳定性由p值和自由能表示。RNA二级结构同源性通过INFERNAL项目获得。RNA二级结构保守性通过SCI分值表示。ORF性质通过RNAcode用多重序列比对方法测得。

环境对分值定义的影响——下游和上游影响

考虑到距离环境的减少的影响,研究人员用指数加权函数计算每个bin中特征的CIS值,

黄金标准注释

每个基因组bin100nt)的注释顺序为:1)如果一个bin和已知ncRNA区域有50%的重叠,则被标记为相应的ncRNA类型;2)如果一个binCDSUTR,祖先重复或基因间区域有90%的重叠,它也被相应的标记;3)如果一个bin和假基因、内含子、TE或模糊区域重叠,它也被相应的标记。

四个基因组元件(CDS,标准ncRNAUTR和负调控)被用来作为每个物种最优特征集的标准。

结果与讨论

不同物种间的标准ncRNAs表现出保守模式

用共同特征确定ncRNAs比原始特征好,选择共同特征可以发现新的ncRNA类型

典型ncRNAs的经典结构构象可以通过新的长ncRNAs选择,并且用来确定新的功能区域。

RNAfeature是一种综合的方法,能够区分蛋白质编码序列和UTRsncRNA类型。基于单个特征类型的RNAfeaturencRNA预测方法有更好的灵敏度。由于非编码蛋白由已知ncRNAs类型的特征模式确定,所以研究人员的编码蛋白分值可以预测一些新的ncRNAs类型。RNAfeature的缺点就是需要大量的输入数据,也就需要大量的预处理工作。

基于研究人员的模式生物结果,研究人员建议在其它的物种中组织10个特征数据为新ncRNA确定、评估和识别。

参考文献:

A common set of distinct features that characterize noncoding RNAs across multiple species.Hu L,et al. Nucleic acids research.2014

作者简介:

鲁志:清华大学生命科学院研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。从事癌症发生发展中表观遗传和非编码基因标识物的发现和机理研究等方面工作。

张奇伟:清华大学信息学院与医学院双聘教授,清华信息国家实验室合成与系统生物实验室主任,首批千人计划教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第三课题组负责人。主要科研领域与方向:计算生物学与生物信息学;合成生物与系统生物学。