根据氨基酸类型分割数据集有效提升有害非同义SNP突变预测

很多非同义突变SNP(non-synonymous SNPs, nsSNPs)位点都与疾病相关,并且很多机器学习的方法已被用作训练分型工具,即从自然突变位点中找到和疾病相关的非同义突变SNP。nsSNP数据的不断积累有助于我们进一步探索更好的预测方法。

由上海生物信息技术研究中心李亦学研究员、李园园研究员、北京大学深圳研究生院叶志强副教授领导的合作小组通过nsSNP位点原有和替换的氨基酸类型将数据分为20个子集。用支持向量机(support vector machine, SVM)的方法对每个子集进行分类模型训练,根据两个不同的分区标准得到了76.3% 或74.9%的准确度,但整个数据集准确度仅为72.6%。此外,该数据集也被随机分为20子集,但相应的准确度仅为73.2%。研究结果表明,恰当的数据集分割可以显著提高训练分型工具的性能,将非常有益于开发用于预测nsSNPs与疾病关联性的工具。该研究发表在2012年《Biochemical and Biophysical Research Communications》杂志上。

参考文献:

Partition dataset according to amino acid type improves the prediction of deleterious non-synonymous SNPs.Jing Yang,et al.Biochemical and Biophysical Research Communications.2012

作者简介:

李亦学:上海生物信息技术研究中心主任,中科院上海生命科学研究院系统生物学重点实验室副主任,研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》专家组成员。主要从事与DNA序列相关的软件开发研究,特别发展了时间序列的统计相关算法。

叶志强:北京大学深圳研究生院化学生物学与生物技术学院副教授。研究方向:研究策略和开发技术用于整合各类异质的生物数据,以开展数据挖掘工作;运用生物信息学工具开展药物基因组学和个体化医疗的研究等。

李园园:上海生物信息技术研究中心研究员,主任助理。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组学术骨干。主要研究方向为,借助生物学网络分析揭示生物系统特定条件下的调控机制。