本期嘉宾:赵屹博士
中科晶云首席执行官,中科院计算所PI、博士生导师,清华大学医学院博士,北京大学医学部医学硕士
NGS接龙活动第二季终于在千呼万唤中上线啦!作为NGS接龙第二季的首位嘉宾,测序中国邀请到了中科院计算所研究员赵屹博士,一起聊一聊他的跨界发展之路以及其与NGS间的“爱情长跑”。赵屹博士更显温和、儒雅,有着浓厚的学者气息。从学业到事业,十年足以让人发生天翻地覆的变化,过去的十年是NGS发展最辉煌的十年,赵屹博士的身份也发生了很多变化,但能感受到其与测序早已深深联系在了一起。测序伴随着他的整个科研及创业生涯,赵屹博士既是见证者,又是参与者,让我们走近赵屹博士,一起看看他与测序重叠的发展之路。
在测序技术发展的十年中,从我的学业到事业,有很多经历令我至今仍然印象深刻。对于NGS来讲,它是近十年产生的新技术,且仍在不断更新和发展中,再往前要追溯到NGS的前身——一代测序。
我的本科专业为传统医学,毕业后曾在医院工作过两年。在学医期间,对病人的诊断到治疗,都会采取中医和西医的两套方案。我渐渐发现了一些问题,中医非常依赖经验的积累,包括对疾病的认识以及中药的组方运用,无法客观地进行衡量;相对比下,西医则比较量化,从诊断到治疗更有据可依,而中医在这方面偏弱。为了扩充西医方面的知识,得到更好的训练,我在1997年考到了北医,进行肿瘤免疫方向的研究,这是我学业中的一次转变。
第一次接触测序就在北医读研究生的时候,当时我所进行的是基因克隆的相关工作,用一代测序技术探寻新的基因,进而研究这些基因的功能,所以说我对一代测序技术有着非常深厚的情感。在那个期间,我所研究的是肿瘤特异性抗原基因,希望能在肿瘤患者中找到免疫系统能识别的一些抗原以及其对应的基因。我在攻读硕士的近三年时间内成功地在克隆了一个与胸腺T细胞发育相关的基因。
对于一代测序,其本身测序长度有限,在测序中需要将DNA的片断分别测测,再拼接到一起,所以那时候的测序工作和拼接工作是比较复杂的。在我看来,测序技术之所以会在之后被大规模开发使用,正是因为其确确实实可以解读DNA的秘密,能让人们真正有机会解读生命的密码,进而探索基因的功能。
巧合的是在读研的期间,导师实验室很早的就给每个学生配备了电脑,当时Windows系统也是才出现不就,我对此也有很浓厚的兴趣。在实验室的便利条件下,帮助导师处理了很多文字、图表以及图像的工作,在课余时间也学习了计算机编程以及基础的统计算法。在我2000年毕业的时候,整个生命科学领域有很新的发展,中科院计算所也要成立生物信息的研究方向。在机缘巧合下,我便从从生命科学、医学的领域转向了生物信息的研究,这是学业中的第二次转变。
从一代测序到了二代测序,随着技术的发展,使用到NGS技术时,其实我已经在计算所从事科研工作,我一直伴随着测序技术的发展,而测序也伴随着我科研工作的延伸。从一代测序到NGS,我也一直关注着测序技术的发展,在工作中进行了众多测序数据的处理工作。测序技术从一代只能测36bp的长度,到现在双端能测150bp的长度,基因测序已经更广泛地应用于临床及疾病的研究。
随着NGS技术的逐渐发展与成熟,我们利用NGS技术进行了很多相关研究,也取得了众多丰硕的成果。基于NGS技术与临床医生合作,尤其是在肿瘤和遗传病的研究中运用这一技术,发表了众多文章,解决了很多临床问题。从应用层面来讲,我们从测序到数据分析也做了大量的工作,包括与协和医院肝外科合作,进行转录组、基因组的测序,从中研究肝脏多发灶和播散灶之间的区别,将二代测序更广泛应用于临床中。
另外,我们应用NGS技术对众多物种的转录组进行了深度的测序以及数据研究。我们发现在转录组中存在着大量的非编码RNA,即lncRNA。基于这些NGS的数据,我们自主研究了鉴定这些长非编码RNA的算法。此外,基于以上数据,还进行了对长非编码RNA功能的预测,取得丰富的研究成果,并得到了其他研究人员的广泛应用。这些文章和研究成果作为工具也得到了其他研究人员的应用,并帮助他们来完成数据分析的工作。基于这些数据我们搭建了数据库——NONCODE。对于NONCODE数据库,我们维护了近十年时间,自2004年第一个版本的数据库发布之后,每隔两年会基于发表的相关文章,不断地维护并更新我们的数据库存,而NONCODE数据库在转录组或者非编码RNA组学中也得到了国际的广泛认可。
在研究和工作的过程中,我们与很多医院以及医科院校进行过合作,为其解决了研究上的问题,同时也开发了众多数据库、算法软件。在国内外也有很多公司希望我们能帮助其处理信息以及数据,为其提供技术上的服务。这时恰逢NGS技术的产业化,随着NGS技术不断突破,成本逐渐下降,很多实验室及医生进行了大量测序的工作,而数据分析却成了整个行业的短板。正是基于NGS数据分析的科研经历,我们感受到了行业对数据分析工作的强烈需求,于是在领导的支持下,从中科院计算所孵化出了中科晶云公司,开始了我的创业生涯。
中科晶云为科研工作者以及临床从业者提供测序以及数据分析的相关服务。在科研领域中,我们帮助实验室及医生分析数据,共同完成科研的任务。同时,二代测序的数据分析除了需要快速,还需要精准性,而这正是我们的强项,中科晶云在数据的质量控制及分析的准度上达到了很高的标准。
此外,在产业化的过程中,我们发现临床应用中并不需要测全部的基因组,我们只需针对不同疾病监测相关的基因,这时便需要捕获技术,目前开展了基因组相关区域的捕获技术研究,已取得很大的进展。
中科晶云有着强大的生物信息团队,作为数据的服务商,我们研发了相应的一体机,可以通过完全的一体化的操作精确地得到病人的突变位点以及对应的治疗方案。
任何技术的发展都不是一帆风顺的,测序技术也经历过波折。第一个人类基因组被测序非常鼓舞人心,科研工作者试图通过一代测序技术测完人类基因组,解决疾病问题。但大家很快就发现这是很难办到的,因为其通量较低,成本太过高昂,从科研到临床应用都很困难,测序的数据也不甚理想,包括到了NGS技术应用早期,测序的片段仍然很短。测序一时间陷入瓶颈,就像一个还未成熟的果实,一方面我们亟需测序来解决疾病问题,另一方面测序技术很难应用于临床实践。在当时很多人不看好这项技术,认为二代测序是昙花一现。终于在大约五年后,在突破了这一瓶颈之后,二代测序开始呈现井喷式发展。
当前二代测序可谓飞速发展,基因检测技术日新月异,虽然目前二代测序已经比较成熟,但是仍在测序技术以及信息解读、信息共享等方面存在问题。第一,当前测序技术虽然已经到了第二代,甚至第三代,但是依旧有很多区域的测序不够准确,甚至对一些变异,如大的结构变异无法做到很精准的测序,而这些变异对疾病的产生、发展有着重大的影响。第二,在信息解读上,虽然科研人员能完成测序的工作,但仍无法完全准确地进行分析,对临床的帮助非常小,当前在人类数据的积累上还远远不够。第三,我们除了要测人群队列的基因数据,更重要的是拿到其标准化的表型数据,这正是目前国内比较欠缺的。虽然按测序量来讲,基因组的数据有很多,但是由于缺乏相对的表型数据及临床信息,这些基因组的数据并没有被真正转化而产生价值。第四,除了在研究角度积攒中国人群特有的表型数据以及基因数据,数据的共享同样至关重要。当前数据共享的工作开展十分困难,缺少相关的规范,导致很多信息变成孤岛,而缺少相应桥梁让这些孤岛联系到一起。同时,国内法律及规定对医院的约束较为严格,很多医院数据涉及患者隐私,使得医院数据的共享非常困难,这也是每个公司未来发展都会遇到的瓶颈。目前看来,解决这一问题还需要政策及法律层面的积极推进,才能真正把这些数据从沉睡的系统中唤醒,产生应有的价值。第五,当前国家对健康基因检测领域的监管仍存在空白,基于我参加的调研工作等,国家可能会于将来对健康基因检测出台相应的政策,即规范化地管理健康人群的基因检测。
在不远的将来,随着政策及监管的日渐完善,测序技术的价值上也会在未来进一步体现出。我相信,基因检测的技术门槛会越来越低,成本也将更加低廉,这样才能真正做到随时检测,这也就意味着测序能对人类的健康的检测做更多贡献,而不是把它作为一种可望而不可及的尖端技术,让这项技术应用在每个老百姓的健康管理和检测上,只要有足够的技术突破和时间,这必将成为现实。
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!