科研

迈向精准医疗,这些肿瘤基因组数据共享项目在行动

近几个月来,肿瘤学领域出现了几项新的个性化医学数据共享项目,这种行动表明,生命科学行业的利益相关者更愿意进行合作,促进癌症研究和患者护理。

1.肿瘤精准医学数据共享项目正在走进临床一线

在基因组学领域中,虽然不缺乏合作研究,但是当基因组数据涉及到患者治疗效果时,往往存在竞争、法律和技术瓶颈的问题。但专家们都认为,这些数据必须广泛共享,才能促进更多的发现,将精准医学推向一线的临床护理。

2月初,在哈佛商学院卡夫精准医学加速器(Kraft Precision Medicine Accelerator)主办的肿瘤学数据全景图讨论会上,普华永道卫生产业咨询服务总监Sudheer Doss表示,他们追踪了去年6月至12月期间发布的数据共享项目的数量,发现在那段时间里出现了相当多的数据共享行动,而且有进一步变多的趋势。

大多数精准医学数据项目旨在促进肿瘤药物开发、疾病病因研究和药物靶标发现。但最近,一些项目已经开始收集基因组信息来优化临床护理。Doss说,这表明已存在一种强有力的推动力量来驱动个性化医学进入临床,但是目前共享的数据还不够多。

目前这些项目的主要资金来源有政府,如百万退伍军人计划(Million Veterans Program)、基因型和表型数据库(Database of Genotypes and Phenotypes),或医药和生命科学公司,如Foundation Medicine公司的FoundationCore项目及Ambry Genetics公司的AmbryShare项目。然而,Doss指出,慈善捐赠也正在成为日益增长的支持来源。

2.GDC等肿瘤基因组数据共享项目的工作计划和进展

去年美国政府支持的主要数据共享工作之一是国家癌症研究所(NCI)推出的基因组数据共享(Genomic Data Commons,GDC)项目。它从大规模项目如癌症基因组图谱(TCGA),以及基因组检测公司和癌症研究人员手中收集标准化的数据集、基因组和临床信息。

NCI基因组学中心主任Lou Staudt介绍,GDC目前拥有4 PB的数据。去年Foundation Medicine公司向GDC捐赠了其FoundationCore数据库中的18,000例数据,但这些数据还没有出现在GDC中,每种不同的数据类型都需要经过大量的特殊处理,使其变成统一的格式。

虽然GDC的开发人员正在开发标准数据提交表单和统一的数据词汇表,但Staudt承认,GDC的各项工作将永远不能完全自动化。他说,“人们以他们认为合适的逻辑方式生成自己的数据系统,它可能与GDC使用的逻辑有些不同,因此需要花时间将它们统一化。”

到年底,GDC希望能收集50,000例数据,使数据存储总数超过100,000例。Staudt说,“该目标实现的速度取决于付款方,现在只能负担得起这么多的基因组学数据。”

如果基因组检测的报销政策能进一步落实,GDC的工作速度就能加快。Staudt说,“如果这些基因组检测能得到报销,那么情况将会发生巨大的变化。每个癌症患者届时都会有基因组数据,而我们可以进行收集。”

去年,多发性骨髓瘤研究基金会(Multiple Myeloma Research Foundation,MMRF)表示将把他们CoMMpass研究的数据提交给GDC。这项研究涉及约1,150例患者,收集临床治疗效果和基因组谱信息。

Staudt表示,“MMRF样品的注释非常广泛。他们有患者医疗事件的时间线,例如肿瘤什么时候发生恶化的。GDC和MMRF正在将这些临床数据整合入数据库。”

现在GDC用户可以对其资源进行搜索。但GDC今年和明年的目标是创建可视化的工具、更直观的分析和点击功能,使非计算机科学家更容易地使用GDC。

Staudt说,“你可以使用GDC做一些事情,比如自由地创建患者队列。”例如,用户可以通过某些临床或基因组参数(比方说,具有KRAS突变的非小细胞肺癌患者)选择出一组患者,并选择具有不同特征的第二组患者,来比较他们的生存情况、治疗反应或其他结果。

他说,“你将能够基于GDC来写你的论文。你可以下载PDF格式的图,用来发表。”

同时,美国癌症研究学会的项目GENIE(Genomics Evidence Neoplasia Information Exchange)也在发展扩张中。在这个项目中,八个癌症中心向一个注册中心共享基因组和临床数据,努力推动研究和改善患者护理。该注册中心目前包含有来自约19,000例样品的临床和下一代测序数据,在1月时已公开可用。

GENIE项目第一批发布的数据反映了不同中心进行基因组分析的方法差异。一些中心仅进行肿瘤测序,而其他中心还有相匹配的正常组织的测序数据。这些中心使用包括48至429个基因不等的panel。注册中心现在有来自多种肿瘤类型(包括3,000多例NSCLC、2,000例乳腺癌和2,000例结直肠癌样品)的数据。

另外,MMRF还试图主办一项众包竞赛来鼓励数据协作,在这项众包竞赛中参与者试图开发一种基因组算法,可以识别哪些多发性骨髓瘤患者处于病情恶化的风险中。MMRF主席Paul Giusti指出,在CoMMpass研究过程中,约有200名患者由于疾病患有强烈的侵袭性而去世。他说,“如果我们能够识别出这些患者,就可以采用不同的、更积极的治疗方法,从而延长他们的生命。”

该竞赛最近已经结束,来自24个国家的49个人提交了700种算法。MMRF、Topcoder和哈佛大学的人群创新实验室(Crowd Innovation Lab)仍在审查这些算法。但Giusti指出,他们已经确定了五种算法,在区分侵袭性和非侵袭性多发性骨髓瘤方面,比当前的标准方法更好。

MMRF现在正在寻求在其他数据中验证这些算法,他们还计划举办另一场比赛,尝试结合五种算法以获得更好的预测结果。

Giusti说,“我们通过众包竞赛获得的主要经验教训之一是,仅有大量数据还不够,还需要有对数据的最佳访问方式。访问至关重要。”

参考资料:

Genomic Data Collaborations Advancing in Hopes of Improving Personalized Cancer Research, Care

(0)

本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!

关键词:

热评文章