NURD:实现RNA-SEQ数据非均匀估计亚型表达

RNA测序技术已被广泛用于在转录的研究中,以及最重要的一个应用程序是估算基因及其可变剪接同种型的表达水平。 已经有发表论文数的算法根据不同的模型来估计的表达,可以通过考虑位置相关测序偏压准确地估计亚型水平表达的方法使用非参数模型。已有方法具有在处理不同的读取分布的优点,但不具有实现该算法的高效程序。

清华大学自动化系和信息国家实验室张学工教授带领研究人员开发了一种在程序NURD中能有效地执行的算法,它使用二进制间隔搜索算法。该程序不仅可以纠正在数据中的全局性的测序偏向性还可以纠正局部的具体到每一个基因的测序偏向性。这样的校正使在各种不同reads分布下亚型的表达估计更可靠。并且算法的执行不仅使得在计算方面内存消耗和运行时间都有很大提升并且可以容易地扩大规模适用巨大的数据集。NURD是一种高效,可靠用于估计同种型的表达水平的工具,能给出读取结果和基因注释文件,NURD将输出表达式估计结果。该软件包对学术研究免费使用:http://bioinfo.au.tsinghua.edu.cn/software/NURD/。该研究发表在2013年的《 BMC Bioinformatics》杂志上。

参考文献:

NURD: an implementation of a new method to estimate isoform expression from non-uniform RNA-seq data.Xinyun Ma and Xuegong Zhang,BMC Bioinformatics.2013

作者简介:

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。