生活中,黑白纹相间的条形码大家都非常熟悉。超市收银员用扫描仪扫描商品的条形码,就能确定商品是什么。14年前,科学家研发出了生物的条形码用于身份识别,只不过,这个条形码存在于生物的DNA中。简而言之,DNA条形码是一个特定的DNA片段序列,可以确定物种身份。
国际生命条形码计划(iBOL)的组织者已经完成了在2015年为50万种动物、植物和真菌生成DNA条形码序列的初步目标,他们正在进一步扩大条形码参考库。iBOL是涉及十几个国家的生物多样性中心牵头的合作,目标是在地球上建立使用标准化短基因序列(即所谓的DNA条形码)的遗传目录,以便唯一地识别每个物种。
作为快速鉴定生物物种的新兴生物分类学手段,DNA条形码技术对于全球生物多样性保护具有重要作用。“iBOL是类似于人类基因组计划的重大国际合作计划。”中国科学院昆明植物研究所所长李德铢表示,这是世界上迄今最大的生物多样性研究计划。
DNA条形码收集在生命数据系统(BOLD)数据库中,包括样本的其他数据和图像。科学家可以使用BOLD数据库作为参考分析鉴定他们在现场收集的样品。对于大多数动物,iBOL使用线粒体细胞色素C氧化酶Ⅰ基因(COI)中约650个碱基对的区域作为其条码。植物条形码则来自两个叶绿体基因,真菌使用另一个条形码序列。
加拿大圭尔夫大学生物多样性基因组学中心迄今为止已经产生了大部分数据。iBOL项目的第一阶段于2010年底正式启动,并完成了其初步目标:2015年夏季在BOLD登记50万个物种的约500万份样本。其中约70%的数据由加拿大DNA条形码中心(CCDB)产生,测序核心设施由生物多样性基因组学中心提供,其余30%其他设施来自世界各地。
Hebert在2015年的一次会议上表示,研究人员制定了一个更远大的目标:为地球上所有多细胞物种注册DNA条形码,估计有1000万到20百万,这将涉及数十亿个样本的条形码测序。当时,Hebert表示,这个项目的估价价格至少是20亿美元,他和他的同事认为可以通过利用新的测序技术来减少这个数字,“因为长扩增子的测序成本很高。”
那时,CCDB已经在使用Sanger测序来生成DNA条形码,五台ABI 3730xl设备和一个自动化工作流程用于DNA提取和样品制备。该设施还配备了来自Thermo Fisher Scientific的Ion Torrent PGM和Ion S5定序器。 此前Hebert曾表示:“所有这些都是在Sanger上完成的,因为我们不满意在一些较短的阅读平台上得到的序列质量,而且会遇到伪基因的问题。所以,我们坚持使用Sanger测序。”
然而现在,随着从Sanger到Pacific测序技术的转换,组织者表示这将使整体项目的成本降低数倍。9月,由中心总监Paul Hebert领导的约有100名研究人员在BioRxiv服务器上发布了一份报告,描述了测试PacBio Sequel平台的试验项目,在一个单一的服务器运行可生成多达10,000个样品的DNA条形码序列。
Hebert表示,当他看到PacBio Sequel平台时,最初是怀疑的,因为研究团队对DNA条形码感兴趣的是650到900个碱基对的扩增子,而Sequel平台超长的阅读是过度的,而且单读取精度很低。然而,当他们发现平台的循环共识测序(CCS)能力可以通过对同一DNA扩增进行多次测序来提高准确性时,他们变得非常感兴趣,并决定试验它在一个单一的多倍Sequel运行中可以进行多少个不同样本,与Sanger测序相比数据怎样。
在他们最近发布的试验结果中,共生产了超过20,000个节肢动物标本的四个扩增子测序文库:一个来自约100个样品,一个来自近1,000个样品,最后两个来自几乎10,000个样品。对于每个样品,它们产生658个碱基对COI基因区域的单个扩增子,其在物种之间的GC含量不同。
Hebert说,即使没有特别使每个样品的DNA量正常化或清除PCR产物,他们也能够从两个高度多重的文库中获得大约90%样品的序列数据,序列的保真度与双向Sanger测序相似,有时甚至更好。此外,Sequel对于具有高或低GC含量的序列同样有效。使用Sanger测序,总是需要手动查看一些跟踪文件以获得完整的读取数据,而Sequel平台则不需要。他说:“我们非常看好这项技术,并相信这是一个重大的突破。”
由于该试点项目的结果,CCDB将从Sanger转换为用PacBio测序生成DNA条形码。Hebert说:“我们现在正逐步减少使用Sanger测序服务,明年我们将完全致力于用Sequel测序建设生命条形码图书馆。”他们已经安装了一个Sequel平台,并计划在2018年引进至少一台其他仪器。
但一个问题是,与其他下一代测序平台相比,Sequel目前生成的CCS读数相对较少。Hebert说他们通常用Sequel可获得30万次读取,意味着一些稀有扩增子不会被读取。
该项目的研究人员在其论文中估计,与Sanger相比,Sequel扩增10,000个样品可以将每个样本测序成本从6美元降到0.15美元,降低约40倍。Hebert说,PacBio已经承诺将在明年实现,特别是Sequel的产量增加后,每个样本的测序成本可以进一步降低。这一报价不包括DNA提取和PCR成本。但Hebert的团队相信,生成条形码序列的总成本可以降低到每个标本低于1美元。他建议,减少样本准备成本的一种方法可能是将其外包给劳动力成本较低的国家的合作者。
技术的转换还意味着DNA条形码标准(目前被定义为双向Sanger读取)将需要进行调整。
总体而言,测序成本的降低和更大的自动化使得地球生物多样性使命计划更加可行,将价格从20亿美元降至5亿美元左右。Hebert希望通过成本的降低,其他条形码测序核心设备能够在世界其他地方兴起,例如欧洲。然而,这将需要更多的资金来支持生命条形码参考库的扩展。
到现在为止,加拿大政府已经在该中心的核心设施投资了约1亿加元,在2016年,作为加拿大第一研究卓越基金对圭尔夫大学的一项资助,又获得了2100万加元。该中心已经准备增加BOLD数据库的容量,至少可以记录1亿条记录。此外,该项目已经建立了一个信息平台,用于存储和分析来自DNA条形码项目
(Multiplex条形码研究和可视化环境)和mBRAVE的高通量测序数据,目前可供测试用户使用。
与此同时,该中心也在将Sequel应用于其他类型的项目。例如,该平台适用于降解DNA的测序,和来自可能超过100岁的博物馆标本。 “我们做了大量的验证,我们发现对于退化的DNA模板,这是一个非常有趣的机器。”Hebert说,他的团队也一直在测试牛津Nanopore的MinIon平台,同样是一个单分子测序仪,可以产生长读数。但目前单读错误率仍然是一个问题,因此需要多次读取才能获得足够的准确性,而且“对于我们正在使用的PacBio应用程序来说肯定不具有成本竞争力”。
“当然,我们喜欢MinIon是因为它是便携式的,能够在现场使用是条形码计划的愿景之一,在现场拿起一些东西就可以获取它的身份,”他说。他的团队目前正在使用MinIon,并将其包括在一个项目中,以建立一个包含DNA提取、PCR、测序和信息学设备的一立方英尺的便携式设备。
此外,除了扩大条形码参考库外,生物多样性基因组学中心正在参与生物监测或环境监测项目,这些项目在短读平台上使用高通量DNA条形码测序来跟踪某个区域随时间推移的物种,例如,昆虫进入田地。“那是我们未来看到增长的地方,并不是参考库的建立,而是持续的生物监测计划。”Hebert说。
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!