新方法mRIN:直接评估全基因组及基因特异性mRNA完整性

当前公共数据库中的RNA测序数据集数量呈指数扩增,这为研究基因表达调控提供了空前的机会。由于降解的RNA样本会导致生成不同的具有潜在偏倚的表达谱,质量控制成为了挖掘这些数据时一个特别重要的环节。哥伦比亚大学张朝林助理教授合作清华大学自动化系和信息国家实验室张学工教授开发出了一种叫做mRIN(mRNA integrity number,mRIN)的新方法,可在样本及单基因水平上直接评估来自RNA测序数据的mRNA的完整性。研究人员系统地分析了由不同的研究联盟生成的人类脑转录组大规模RNA测序数据集。分析结果证实由于死后组织中部分RNA碎裂导致的3′端偏倚可对整个表达谱造成显著的影响,mRIN有效地鉴别出了mRNA不同水平降解的样本。出乎意料的是,在这个过程中发现了一个可重现的、基因特异性成分,其转录稳定性的不同与不同的功能和结构特征有关,这让人联想到了活细胞中mRNA的降解。该研究刊登在2015年5月的《Nature Communications》杂志上

mRIN方法

mRNA测序(RNA-Seq)可以以前所未有的深度、分辨率和覆盖度为我们提供数字基因表达谱。为了获得可靠且可重复的RNA测序数据,RNA的质量至关重要。为获得高质量的RNA所面临的挑战有:一是RNA样品采集时由于组织坏死而导致的RNA降解。比如,BrainSpan和基因型-组织表达GTEx(Genotype-Tissue Expression, GTEx)项目等人类转录组研究便依赖的是死后组织。二是有研究表明死亡时间和诸如缺氧等细胞应激源可以对RNA完整性造成显著的影响。现在可以采用mRIN方法来解决这些问题。

mRIN方法运用机器学习的方法从电泳痕迹中提取特征并且训练神经网络预测RINs。实验表明RINs能反映RNA的降解程度以及使用降解的RNA样品导致的假阳性。

3′端偏倚可对整个表达谱造成显著的影响

RNA测序数据中的3’端偏倚可能来自与5’端核酸外切酶对于RNA的降解作用。为了证明评估mRNA完整性的重要性以及区分不同类型的mRNA降解。研究人员采用了BrainSpan项目中的大量数据集。运用RNA-Seq和基因芯片分别获得大脑转录组数据集,发现两者得到的数据集显著不同(图1a),RNA-Seq数据集显示基因低水平表达的表达谱而基因芯片中并非这样。研究人员猜测这可能是由于RNA-Seq对于RNA质量的敏感度更高。然后研究人员通过用这两种方法测已知的存在存在RNA降解的样品基因,最终证明了RNA-Seq数据集受3′端偏倚的影响更严重(图1b)。实验结果表明mRNA碎片可能是降解的死后组织基因表达偏倚的主要来源。

图1. 全基因表达谱中假定mRNA降解的影响。

a. 左边表达差异图谱为通过RNA测序所得的BrainSpan数据中,尸检大脑组织基因表达谱,右边为Affymetrix HuEx外显子芯片测序所得表达图谱。b. 同一个个体的胎儿时期(1)及产后(2,3)大脑组织显示,RNA降解严重影响了全基因表达谱。c. Smg1基因在RNA测序及外显子测序中的差异。

mRIN量化3’端偏倚和基因表达的改变量

为了直接量化RNA-Seq数据中mRNA的降解量,研究人员提出来一个统计学方法来计量每个基因的3’端偏倚(图2a)。通过预处理得知那些没有被降解的样品的mRINs值服从正态分布而降解的样品的mRINs值具有较大偏差,据此能够从统计学上得知mRNA的降解会产生的重大影响。

为了验证mRIN可以评估mRNA的完整性,研究人员首先研究了mRINs和相关样品的表达谱,发现基因表达不显著的样品对应的mRINs值是负值(图2b)。为了更进一步验证该假设,研究人员首先通过计算了每个样品在RNA-Seq平台和外显子测序平台(因为外显子测序不受局部RNA碎片的影响)上得到的基因表达谱的相关性,并且研究这种相关性与mRIN之间的联系。发现二者相关性非常强(图2c),然后研究人员又将样品按照mRIN的标准分为两组,每组数据集都通过两个平台来计算表达谱(图2d),发现没有发生降解的样品的基因表达谱两者相似,而发生降解了的样品的基因表达谱两者差异很大。基于这些观察,研究人员得出这样的结论:RTNA-Seq中mRNA的降解会对整体表达谱产生巨大的影响,mRIN可以用来量化这种降解程度。

图2.mRIN高效的评估RNA测序数据的mRNA的完整性

a.计算mRIN的算法。计算每个基因和样品的3’端偏倚后,运用KS统计,则mRIN就是每个样品的计算量。运用混合模型来评估统计学意义得知没有被降解的样品的mRINs值服从正态分布。b. BrainSpan数据中表达不显著的基因通过RNA-Seq测序显示较低水平的mRINs。c.通过RNA-Seq测序和外显子测序来验证mRIN可以用来评估mRNA的完整性。对于每一个样品都计算了在两个平台上基因表达的相关性,得知相关性很强。d.运用mRIN从余下的355个样品中分离了RNA降解最严重的124个样品。对于每组基因,基因表达的热图都通过两个平台测序得到。

比较mRIN和RIN及其他质量控制指标

RIN 是目前普遍采用的衡量RNA质量的标准方法。研究人员使用两种不同的方法来比较mRIN和RIN值。设计实验估计了mKS矩阵和mRIN的值,从mKS矩阵中可以看出一般的若RINs水平越低则3’偏倚就越强,而mRINs的水平也越低(图3b)。研究人员在这之中也注意到mRINs是用于基因分析的强有力工具,基因被随机被随机的分为两组都能得到相同的结果。随后又在数量上比较了RIN和mRINs(图3d),最后的结果也显示出mRIN和RIN的一致性。

研究人员又用RNA-SeQC计算转录产物5’端和3’端覆盖的序列,以此估计3’端偏倚。结果发现这两者两端序列数目之比和mRIN之间有相关性(图3e),但是由RNA-SeQC计算得到两者之比只最多只能解释15%的RINs变异(图3f)。这也就表明了mRIN在量化3’端偏倚上的优势地位。

图3. 比较mRIN和RIN及其他质量控制指标

a.317个GTEx不同类别的大脑样品。b. mKS矩阵显示RINs分类的样品和根据分层聚类的基因。上方的RINs和mRINs显示一致。c. mRINs的累积分布。左边反映的是降解的样品,其余样品显示正态分布的趋势。d,e. mRIN和RIN的关系。d. RNA-SeQC计算的比值和mRIN的关系。e. RNA-SeQC计算的比值和RIN的关系。f.散点图中的皮尔逊相关。

基因特定成分的降解和独特的转录产物特征

mRIN不仅能够估计单个样品的mRNA完整性,而且还能估计基因特定成分的降解。为了研究基因特定成分的降解机制,研究人员通过关联mKS值和mRINs值来计算基因完整性分值(GIS)。发现运用实验中所用到的两种不同数据集(BrainSpan数据和GTEx数据)得到的GIS值高度相关(图4b)。此外GIS是负值表明是受到3’端偏倚的降解了的样品。对于不同的基因的GIS分值的界限并不明确而是连续的,研究人员通过基因分组实验研究观察得知降解过程的发生并不是完全随机的(图4c)。随后研究人员又进一步发现转录产物的稳定性与其长度,GC含量以及调控原件有关(图4d)。

图4.基因特定成分的降解和它们的功能以及转录产物特征

a. mKS矩阵可视化 mKS值和mRINs值的相关性。b.从GTEx和BrainSpan数据中得到的GIS分值散点图。深蓝色区域代表基因密度高。c.基因本体(GO)分析得到的基因最低或最高的GIS值。d.运用不同的群体特征进行GIS的线性回归分析来反映转录物长度,碱基组成和调控序列。个体变量与转录稳定性呈正相关或负相关分别用红色和蓝色表示。

参考文献:

mRIN for direct assessment of genome-wide and gene-specific mRNA integrity from large-scale RNA-sequencing data.Feng H,et al.Nature Communications. 2015 Aug.

作者简介:

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。

张朝林:哥伦比亚大学,洛克菲勒大学博士后,研究助理教授