其它

首页 - 全部文章 - 其它 - 清华大学汪小我团队发表通过cfDNA甲基化测序数据预测早期肿瘤的人工智能算法DISMIR | Brief Bioinform

清华大学汪小我团队发表通过cfDNA甲基化测序数据预测早期肿瘤的人工智能算法DISMIR | Brief Bioinform

在生物体中,伴随着细胞凋亡等过程,细胞内的DNA片段会被释放到血浆中成为游离DNA(cell-free DNA,cfDNA)。在癌症发生早期,当患者还未表现出明显的临床症状时,细胞内DNA的状态就已经发生了变化,这些DNA被释放到血浆中,使得血浆cfDNA中蕴含了与癌症相关的重要信息。通过对这些信息进行提取和处理,即可对癌症进行非侵入式诊断,实现癌症的早诊早治。
已有的基于cfDNA的癌症检测方式通常关注于检测特定基因的突变,但由于外周血信号噪声大、癌症异质性强,基于基因突变的检测方法往往难以在测序成本和检测精度间取得平衡。拷贝数变异、片段化模式等特征也可以反映出癌症发生的相关信息,但是由于这些信号噪声较大,在癌症发生早期的诊断准确率较为有限。对比而言,在癌症发生早期,DNA甲基化即会在全基因组水平上发生较为明显的变化,被认为是一种具有癌症早筛应用潜力的特征。得益于高通量测序技术的发展,全基因组甲基化测序(WGBS)能够提供全基因组范围的高精度甲基化状态测序,这为开展高精度的癌症检测提供了可能。而如何充分应用WGBS数据的丰富信息,成为了实现癌症非侵入式检测的关键。
2021年7月9日,清华大学自动化系的汪小我教授团队Briefings in Bioinformatics上发表了题为“DISMIR: deep learning-based non-invasive cancer detection by integrating DNA sequence and methylation information of individual cell-free DNA reads”的文章。基于深度学习方法,该研究实现了通过血浆cfDNA的WGBS数据进行高精度的癌症检测,且在超低测序深度下仍旧保持较好的检测效果。清华大学自动化系博士生李嘉琦与清华大学自动化系博士后魏磊为文章的共同第一作者。

图:DISMIR 整体流程图。

DISMIR定义了更适合用于深度学习的差异甲基化区间(DMR),并将其命名为“开关区间”。DISMIR将来自这些开关区间的每一条序列看作是一个独立的样本,通过深度学习模型整合序列信息与甲基化信息,判断这些序列来自于正常组织或癌症组织,最终根据癌症来源序列的比例推断癌症是否发生。该研究以肝细胞癌(HCC)为例评估DISMIR的癌症检测能力,并与其它现有的基于cfDNA WGBS数据的方法进行对比。通过在两组不同来源的、包括HCC病人、乙肝携带者和健康人的血浆样本的cfDNA数据集上进行比较和测试,显示DISMIR的检测准确率超过现有的最佳方法

图:DISMIR和其它现有方法在不同采样比例下的检测效果。

此外,非常有趣的一点是,在将测试数据降采样到原始深度的1%之后(测序深度0.01×~0.1×),DISMIR的检测准确率AUC仍能维持在0.9左右,而其他方法的效果则随着测序深度的降低而大幅下降。进一步分析证明,DISMIR独特的差异甲基化区间定义方法与深度学习模型架构共同保障了检测的灵敏性和鲁棒性。这一结果凸显出DISMIR在低深度测序下的优越性,有望降低液体活检的应用成本,从而满足临床应用中的实际需求。
图片

图:DISMIR的卷积核分析。

深度学习方法往往依赖大量的样本进行准确的模型训练。但临床样本十分珍贵、不易获得,如何利用少量样本训练深度模型是液体活检领域中的难题。DISMIR基于DNA序列和甲基化的关联模式与细胞状态间隐含的机制联系,将测序样本中的每一条读段作为输入,利用海量测序数据提取DNA序列和甲基化之间的关联模式,推断读段的来源,成功发挥了深度学习方法在复杂模式提取学习方面的强大优势。通过对模型的分析以及进行仿真实验,能够发现DISMIR成功地提取到了甲基化位点的关键模式,且更为关注序列的整体甲基化状态,对于可能的测序噪声也有着一定的过滤效果。对深度学习模型的卷积核进行分析,可以发现若干与癌症相关的motif,从侧面说明DISMIR成功地提取到了与癌症相关的序列模式,这也为使用深度学习模型对癌症机理的分析提供了潜在的可能。
DISMIR与汪小我团队今年在Bioinformatics上发表的cfDNA测序数据一体化分析流程软件包cfDNApipe点击查看此前报道共同构成了cfDNA液体活检数据解析的全流程解决方案。原始cfDNA测序数据在经过cfDNApipe的质量控制和自动化分析后,可直接应用于DISMIR智能算法输出癌症风险值,判断癌症的发生发展情况。这一方案针对液体活检的数据产生机制和实际应用场景进行针对性设计开发,具有良好的准确性和鲁棒性,可以推广应用于不同癌症的检测,甚至有通过整合不同癌症的数据实现泛癌检测的潜力。
参考文献:
[1] Jiaqi Li, Lei Wei, Xianglin Zhang, Wei Zhang, Haochen Wang, Bixi Zhong, Zhen Xie, Hairong Lv, Xiaowo Wang, DISMIR: Deep learning-based noninvasive cancer detection by integrating DNA sequence and methylation information of individual cell-free DNA reads, Briefings in Bioinformatics, 2021, bbab250, https://doi.org/10.1093/bib/bbab250
[2] Wei Zhang, Lei Wei, Jiaqi Huang, Bixi Zhong, Jiaqi Li, Hanwen Xu, Shuying He, Yu Liu, Juhong Liu, Hairong Lv, Xiaowo Wang, cfDNApipe: a comprehensive quality control and analysis pipeline for cell-free DNA high-throughput sequencing data, Bioinformatics, 2021;, btab413, https://doi.org/10.1093/bioinformatics/btab413
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章