如今,国内围绕精准医疗计算领域的创新合作正在日益加强,尤其在精准医疗软件、云计算、人工智能应用等多个方面取得了诸多进展。去年6月,全球著名基因组学研究中心博德研究所(Broad Institute)与英特尔公司,携手国内众多合作机构共同成立了GATK中国社区,得到了国内从业者的广泛支持。
近日,博德研究所的数据科学平台部门派出代表团访问中国,在英特尔、测序中国等众多合作伙伴的支持下举办了为期九天的“2018 GATK中国社区活动周”暨“Broad中国培训交流周”活动,为中国基因组和精准医疗领域从业者带来了最新版本的基因组分析软件GATK4及WDL/Cromwell等工具的面对面培训,介绍了基于GATK标准流程的博德-英特尔基因组分析解决方案。值此之际,测序中国对博德研究所数据科学平台(Data Sciences Platform,DSP)副所长Geraldine A. Van der Auwera博士进行了专访,就计算科学与精准医学的融合发展及GATK4的应用进行了深入交流,以下为本次专访的采访实录。
测序中国:作为博德研究所数据科学平台副所长,您认为计算科学或BioIT可以在哪些方面推动精准医学的发展?
Geraldine博士:精准医学有着广阔的发展前景,但也面临着科学技术上的难题。我们的想法是通过开发全新的工具和基础架构(infrastructure),扫除精准医学发展中的重重障碍,帮助科学家们专注于自己的研究。
我们认为,基础研究的进步和产业的发展离不开广泛的合作,我们与产业界以及各种学术团体建立了紧密的合作关系,各方取长补短,以期共同应对技术发展中的挑战,推动精准医学的快速发展。
测序中国:谈到跨领域合作,作为数据分析的专家,您平时和临床医生及医学科研人员会探讨哪些话题?为了推动精准医疗的发展,您认为IT或生物信息从业者与医学工作者应该如何高效地协作?
Geraldine博士:首先,我们非常注重团队的多样性,团队成员来自不同的领域,拥有不同的背景。就拿我个人来说,我此前在实验室中从事微生物学研究,现在来到了博德研究所从事生物信息工作。这在我们的团队中是非常普遍的现象,也正是这一点让我们的团队有了丰富的技能和各领域的经验。
其次,我们也在和医疗健康工作者打交道,并努力去理解医生和研究者的真实需求和实际问题。我们团队的一个研究员——当时她主导着胚系突变(germline mutations)鉴定方法的开发——曾特地来到Daniel MacArthur(麻省总医院知名人类遗传学家)的实验室,深入了解了他们面临的问题与困难,然后利用这些宝贵的信息帮助我们开发出了更好的流程和工具。
从我个人的经历来讲,时常与各领域人士展开讨论是非常有帮助的,这让我更好地融入了GATK的开发团队。我和我的团队非常愿意,也非常擅长扮演“翻译官”的角色,为GATK的开发团队和用户群体之间的信息通达贡献力量。
测序中国:就基因检测技术及相关数据分析而言,您认为实验技术和数据分析技术的发展是否匹配?
Geraldine博士:近几年来,测序技术取得了长足的进步,我们看到了许多创新性的成果和进展,但是这些创新并不局限于某一个领域,或者为某一个团体所垄断。因为要把所有的精英和专家汇聚到一起实在是太难了。更为现实和高效的做法是促成行业内这些有影响力的公司,通过协作和共识充分发挥自身的独特优势,共同推动测序技术和数据分析的发展。
我认为目前一个很重要的进化趋势是开源平台的建立和发展,它不仅可以帮助我们汇聚全球开发者的力量,也有助于建设一个“数据生态圈”,让那些优秀的数据分析工具和流程可以更好地得到共享。
测序中国:请您简要介绍一下GATK这一领先的基因组分析软件的最新版本——GATK4.0,它有哪些突出的优势?未来对于GATK是否有继续升级的计划,以及有哪些更新或升级的方向?
Geraldine博士:一方面,我们花费了很长的时间重写了底层的代码,从而使得分析的速度大大加快。通过整体上更加完善、合理、系统化的架构设计,我们可以充分利用近些年在云计算和大数据领域涌现的全新技术。而所有这些努力——重写的底层代码、重新整合设计的工具包,都是为了应对基因组学高速发展为数据分析带来的巨大挑战。另一方面,我们拓展了GATK的适用范围,使其可以覆盖CNV(Copy Number Variation)及SV(Structural Variation)的鉴定;并使得胚系变异和体细胞变异的鉴定变得更加容易。
在GATK4.0之前,许多优秀的软件在鉴定某一特定类型的基因变异上有着良好的表现。这虽然能够解决用户的问题,但也带来了许多不便。GATK4.0的出现为研究者们提供了一个很好的平台,可以更加集中地管理和使用多种不同的工具,进而解决研究者遇到的各种问题。
GATK未来的升级会围绕两个方向展开:一是借助Spark框架的力量对一大批分析工具进行加速;二是利用机器学习的手段,优化各种算法,使其在算法敏感度和特效性方面有更好的表现。
Geraldine博士在培训活动现场
测序中国:您对于GATK4/BIGstack的培训课程有哪些期待?该课程将为国内的GATK用户和分析人员带来哪些帮助?
Geraldine博士:在讨论会上可以看到,我们的用户群体是非常多样化的,而我们的目标就是利用GATK帮助他们在自己的细分领域获得成功。GATK是一个非常全面的分析系统,拥有强大的功能和丰富的应用场景,我们首先需要让大家了解GATK能做什么,然后教会大家如何有效地使用GATK进行分析。GATK不应该成为一个“黑盒子”,只是交给用户按下按钮,等待结果;而是应该让用户有机会去了解它是如何运作的,唯有如此才能最大化地实现GATK的价值。我们希望到本周结束之时,所有参加培训的人员都可以重新了解GATK,找到它的最佳使用方式。
测序中国:基于GATK标准流程的博德-英特尔基因组分析解决方案(Broad-Intel Genomics Stack,BIGstack)面向的用户群体是哪些?在中国,临床医生的工作负荷很大,如何帮助他们更好地理解和使用基因组分析的工具?
Geraldine博士:医生巨大的工作负荷和有限的精力确实带来了很大的挑战。我们的解决方案是帮助用户去了解GATK的关键点和标志性应用场景;另一方面我们也做出了很大努力,让所有这些分析工具尽可能地简单易用。我们由衷地希望,通过与医生群体的广泛交流与合作,GATK和BIGstack可以协助中国的医生更好地开展他们的临床及科研工作。
最后,Geraldine博士为所有支持GATK的中国朋友们送上了祝福:
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!