2月16日发表在《Science》上的一篇论文显示,DNA样本中发现的一些序列变异实际上可能是由样本处理过程中的损伤引起的。新英格兰生物实验室(NEB)的一组研究人员设计了一种评估这种损伤程度的算法,并表示在样品制备过程中使用DNA修复酶可以纠正这个问题。
斯坦福大学的Stephen Montgomery没有参与这项工作,他评论说:“这项工作展示了如何区分体细胞变异与DNA样品制备导致的损伤。这样做的好处是可以减少癌症基因组计划中的假阳性。”
众所周知,从古老标本或福尔马林固定石蜡包埋(FFPE)组织中提取DNA样品容易导致断裂和化学修饰,进而产生在活生物体中不存在的突变。但最近的证据表明,事实上,任何DNA样本都可能有这种人为诱变损伤的风险。已知DNA超声处理(在样本制备中使用声能来搅动用于扩增和测序的DNA片段),可诱导氧化损伤,引发突变。
纪念斯隆凯特林癌症中心的分子肿瘤学家Marc Ladanyi没有参与这项工作,他解释说:“这类突变在样品中很少发生,因此在许多情况下不会导致问题。但在癌症生物学中,鉴别亚克隆突变,以及检测血浆中ctDNA的突变越来越受重视,这两类突变仅存在于样品中非常小比例的细胞中。当处理这种低等位基因频率的变异时,人工产物就是一个值得关注的问题。这篇文章对于我们防范这类人工产物是一个很好的提醒。”
在这项研究中,NEB的Laurence Ettwiller等人设计了一种计算测序DNA样本中这种损伤程度的算法。该算法利用以下事实:在超声处理期间DNA的氧化损伤将鸟嘌呤转化为8-氧代鸟嘌呤,其在测序reads中出现并像胸腺嘧啶一样作用。比较两条互补链的测序reads,这些转化的鸟嘌呤可以被发现为错配:一条链上读为胸腺嘧啶,但互补链上配对的却是胞嘧啶(其与鸟嘌呤配对)。另一方面,若是天然发生的鸟嘌呤→胸腺嘧啶的变异,其互补链上相配对的是腺嘌呤。因此,该算法通过比较测序reads来揭示胸腺嘧啶错配的程度,以确定损伤的数量。
研究人员利用该算法——全局不平衡值(Global Imbalance Value,GIV),来分析1000 Genomes 和 The Cancer Genome Atlas(TCGA)数据库中的序列,发现1000 Genomes 数据库中41%具有指示损伤的不平衡评分,TCGA数据库中73%具有广泛的损伤。
文章的共同作者,NEB的Thomas Evans说,“这种损伤比我们预期的更加普遍。这样的错误很可能会混淆真正的低频体细胞变异的鉴定。”
Ettwiller说,“人们可以标记那些容易损伤的样品,从GitHub(https://github.com/Ettwiller/Damage-estimator)上免费下载GIV算法,作为质量控制的步骤,对样品进行评分。样品的GIV评分可以用来指导严格阈值的设定,来鉴定潜在的真正的低频变异。”
另外,作者还指出了一种在测序之前纠正损伤的方法。即在DNA样品制备过程中加入DNA修复酶,来纠正氧化损伤。
参考文献:L. Chen et al., “DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification,” Science, 355: 752-56, 2017.
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!