科研

首页 - 全部文章 - 科研 - 高歌课题组开发基于自适应卷积核的序列motif识别新方法 | Briefings in Bioinformatics

高歌课题组开发基于自适应卷积核的序列motif识别新方法 | Briefings in Bioinformatics

深度学习(Deep Learning)是机器学习的一种,通常指基于表示学习的深度神经网络,如基于卷积神经层构建的卷积神经网络、基于递归神经层构建的递归神经网络等。它适合用来发现海量高维数据背后的复杂模式。近十年来,随着计算机算力的大幅提升,深度学习在图像识别、自然语言处理等领域取得了众多成果,其中可以捕捉数据局部特征的卷积神经网络(Convolutional Neural Network, CNN)已被广泛应用于组学序列数据分析、生物影像处理等多个生命科学相关领域。

序列motif(sequence motif)通常是指与特定生物学功能相关的一段序列片段、及其相关碱基/氨基酸分布模式,如转录因子结合位点、蛋白质功能域等。精准识别、鉴定与发现序列motif不仅是功能分析与预测的重要基础,也是理性设计生物功能元件的前提。从计算的角度来看,序列motif可视为在一个给定序列数据集中频繁出现的特定保守序列模式,早在上世纪80年代就被提出,并已成为生物信息学与计算生物学的经典问题之一。随着高通量技术的迅猛发展,如何准确、快速的从海量组学数据中识别、鉴定序列motif更成为相关领域的核心挑战之一。

针对指数增长的海量组学数据,近年来研究人员开始应用能够有效处理大数据的基于卷积神经网络的深度神经网络算法来取代经典基于word enumeration或profile alignment的序列motif检测算法。卷积神经网络可利用一系列卷积核(kernel)来自动识别输入序列上频繁出现的序列片段,并通过将这些片段组合以发现其中的序列motif。但经典卷积神经网络只能使用预设固定长度的卷积核,难以适应海量组学数据中复杂多变的序列motif。

近日,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室高歌课题组,在生物信息学期刊Briefings in Bioinformatics上发表了题为“Identifying complex motifs in massive omics data with a variable-convolutional layer in deep neural network”的生物信息学论文,提出了能够在训练中自动调整卷积核长度的新型变长卷积层vConv。

图1.vConv层结构。为了生成掩码矩阵(mask matrix),vConv使用两个对称的sigmoid函数生成了两个矩阵(A和B),然后通过叠加这两个矩阵获得了掩码矩阵(C)。在此基础上,vConv把该掩码矩阵与原始的卷积核做Hadamard积,获得了掩码内核(D),再将该掩码内核与输入序列进行卷积(E)。

vConv通过在原始卷积核上叠乘两条形状可训练的对向S型曲线,来动态遮蔽(mask)卷积核两侧元素、进而实时学习卷积核的有效长度(图一)。多组围绕模拟与真实数据集的测试显示,基于vConv的神经网络表现显著优于基于经典卷积层的神经网络。特别的,vConv可在已有多层网络模型中直接代换传统卷积层,相关Python代码及教程已通过GitHub开源发布(https://github.com/gao-lab/vConv),与课题组前期发布的池化层ePooling方法(https://github.com/gao-lab/ePooling)相结合,可为相关应用提供了平滑的升级路径。

北京大学生命科学学院博士生李静一、美国卡内基梅隆大学计算生物学学系硕士金燊为该论文的共同第一作者,高歌研究员、军事科学院军事医学研究院辐射医学研究所博士后丁阳为共同通讯作者,北京大学生命科学学院本科生屠鑫明在代码测试上提供了大力支持。

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章