《侏罗纪公园》中,科学家对古DNA分子进行提取、修复,利用克隆技术将已绝迹6500万年的恐龙复活。漫威世界里,可随意变换大小的智能蚁人能够像英雄一样拯救世界。科幻大片里的技术能否成真?
当前,合成生物学的高速发展,让预言由科幻逐步接近现实。作为一门汇聚型新兴学科,合成生物学被誉为认识生命的钥匙,通过构造人工生命系统来研究生命的进化历程,最终实现造物致用、造物致知。发展至今,合成生物学已在农业、饮食、医药、能源等领域发挥了重要作用。与此同时,DNA合成通过编写生命密码,已成为生命数字化时代的焦点之一,引领着下一代数据存储革命。
聚焦DNA合成技术,解决“卡脖子”难题
近日,美国通过了《无尽前沿法案》,该法案授权在未来五年内加大美国的科研产业化投资,其中合成生物学被列入十大关键技术领域之一,尤其是涉及DNA合成的关键技术和装备的自主研发。沈玥博士谈道,在这种背景下,必须把握创新主动权。再则,合成生物学在不同领域(医疗、农业、环境信息)的快速崛起,使其对DNA合成的需求日益增长,特别是当下“碳达峰 碳中和”热词的提出,要实现这一目标就需加快推进能源行业向清洁低碳转型,以生物可再生能源代替传统化学能源,实现科技变革。
搭建首个自动化DNA合成平台,助力基因合成产业化
DNA数据存储:下一代数据存储革命
传统的存储介质(如文字,书本)都是基于人眼看的图像式识别。信息时代(磁带,光盘及硬盘)都是通过记录01的信息来进行数据存储。在数据大爆炸的今天,现有存储容量已跟不上数据存储需求,DNA数据存储技术应运而生。通过生物技术与信息技术的完美融合,将DNA作为数字信息的载体,可实现海量数据的存储。
对此,平质博士表示,DNA作为自然界生命遗传信息的载体,已经存在了上亿年,因此科学家将目光锁定在DNA上。DNA有4种碱基(A、T、C、G),从本质上来说,DNA是一个四进制的存储介质,我们可以将01的二进制形式的信息转换成四进制的ATCG序列,通过DNA合成技术合成任意的序列,实现数据存储。
据平质博士介绍,这些DNA分子可以通过溶液、干粉、纳米微球等形式进行存储,还可以将DNA植入到一些模式生物的细胞里(如大肠杆菌、酵母等),只需对这些生物体一直进行培养传代,便可将DNA数据一直保存下去。存储完毕后,可通过高通量测序技术读取数据,再根据存储使用的编码方式,进行反推解码,恢复原始信息。“与传统存储方式相比,DNA的存储信息密度非常高,数千克的DNA可存储全球所有数据。DNA分子非常稳定,其半衰期大概521年,且DNA维护方式简单、成本低廉,只需把它放入冰箱便可长久保存。”
特别地,沈玥博士表示:“围绕DNA数据存储三大流程,即数字文件编码转码、数据写入(DNA合成)、数据读取(基因测序),华大已实现了具有自主知识产权的自主可控的技术闭环。”
在编解码的开发方面,华大自主开发了阴阳双编码的DNA存储系统,可在不影响存储密度的前提下,尽可能保证数据的可恢复性。目前,华大在100个DNA分子拷贝数水平上,可实现DNA数据存储的平均恢复率达88%以上,该领域尚没有别的办法可以实现这一需求。
在编码方法层面上,华大开发了一个应用活字印刷术的DNA存储系统,将所有的可标准化的字节进行预先合成,通过合成之后像活字印刷一样,需要用哪个字节,就调取相应的DNA,进行排列组合,来实现标准化的信息存储方式,该方法已进行了PCT专利申请,2020年获得了授权,并进入了美国市场。
数据写入方面,华大自主研发的高通量合成仪及规模化的自动化平台可为DNA合成来提供支撑。
开发DNA高效转码平台,促进DNA存储领域交流
作为一个新兴领域,DNA存储是率先利用生物技术解决信息技术瓶颈的一个典型案例和发展方向。平质博士认为,不论是针对技术还是参数,DNA存储还存在着很多可以被标准化的空间。基于此,华大技术团队建立了一个DNA存储编解码算法的集成平台和评估平台,成果近期以题为《Chamaeleo:DNA存储碱基编解码算法的可拓展集成与系统评估平台》的研究论文形式在《合成生物学》杂志DNA存储专辑中发表。该平台以开源方式运行,可持续加载新的编解码方法和评价指标,促进行业内交流,推动整个DNA存储领域编解码算法开发的生态发展。
2020年11月,国外Twist Bioscience与Western Digital、Microsoft等公司合作建立了DNA数据存储联盟。该联盟牵头为DNA数据存储领域制定标准、制定行业路线图,并为商业档案数据存储生态系统奠定基础。此前,国际上尚未有人关注DNA存储编解码算法的评价体系。平质博士谈道,华大发布了该平台,布局关键技术,可在未来国际竞争中抢先占据制高点,并在DNA标准化应用流程建立方面取得一定话语权。
事实上,目前DNA数据存储的成本较高,有效的降低成本更有利于DNA数据存储技术的推广。不断提高存储效率可在一定程度上降低存储成本。平质博士指出,DNA数据还要解决几方面难题:
第一,DNA数据存储效率。这取决于DNA数据存储上下游的关键技术,包括数据写入方面,需进行合成技术合成装备的更新和迭代,提高准确性;数据读取方面,需进行测序效率、测序通量的提升,改善错误率,降低成本。
第二,DNA数据存储标准化。目前DNA存储没有统一标准,DNA存储要进行大规模的应用,必然要有一个标准化的过程,如何制定这些应用的标准是一个非常重要的问题。
第三,DNA存储数据安全。DNA具有生物特性,人工合成序列对环境是否有害需要评估。其次,存储数据的可靠性和隐私保护也需要关注,可能需要开发对于DNA数据的一些加密方式,例如从分子底层设计、算法设计方面提高加密性能。此外,如何通过设计来防止非授权的复制及恶意篡改也至关重要。
结 语
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!