近日,英国生物样本库(UK Biobank)公布了50万人的遗传数据,可谓“一波掀起千层浪”,在基因组学界引起了极大关注。遗传学家认为,这些资源将在从事人类遗传学工作的科研人员手中发挥巨大作用;而更重要的是,本次开放可能会改变目前知识领域的整个格局。
从7月中旬开始,全球139个研究机构的科研人员已经开始使用完整的数据。此外,在早期发布的数据中,还公布了大约20篇遗传学研究论文的详细资料(文章链接见于文末参考资料)。而组织者表示,这仅仅是一个开始。
英国生物库是由英国政府发起的一项历时30年的大科学研究,这是英国迄今以来规模最大、最为雄心勃勃的健康研究项目之一。英国生物样本库的信息将免费对世界范围内的批准的研究人员开放,但自2013年以来,面对成千上万的研究人员,英国生物样本库提供的数据量十分有限。
现在,随着计划的实施,来自50万人的基因数据已经被分成两部分提供给获批的研究人员。据悉,表型数据可以直接通过生物样本库获得,另一部分遗传数据已经发布于欧洲生物信息学研究所(EBI)和英国基因组监管中心联合管理的欧洲基因组-表型档案系统(EGA)中。
“据我所知,每一个从事遗传学的研究人员都下载了这些数据,这十分令人印象深刻,”欧洲生物信息学研究所主任Ewan Birney说道。鉴于这此开放的表型数据的规模和范围,他表示,将英国生物样本库的数据集称为“最广泛的队列”一点也不过分。
在2006年至2010年期间,英国生物样本库收集了50万名志愿者的血液、尿液和唾液样本。此外,志愿者还提供了完善的个人健康信息,并同意英国生物样本库获取其国家卫生服务电子健康记录。收集的表型数据涉及参与者的生活方式、病史和社会人口学指标,参与者还进行了认知功能和听力测试。
此外,许多参与者已经进行了影像学检查。英国生物样本库发言人Andrew Trehearne表示,随着工作的推进,英国生物样本库正在通过MRI对10万名参与者的心脏、大脑和腹部进行影像学检查,一些人还接受了视网膜扫描。他表示,研究人员目前已经基本获得了10,000位参与者的影像数据。Trehearne强调:“最终,这将是卫生研究的另一项重大数据。”
Birney谈道,这些数据也提供了很多不同方面的测量基线。EBI的研究人员将结合基因数据以及影像学数据,以了解更多关于人类发育和疾病关联的信息。
豪不夸张地说,本次英国生物样本库的数据发布是独一无二的,这些数据正在得到共享,数据的广泛性以及资源获取的便利程度也十分诱人。数据的规模也为遗传学家提供了快速开展科研项目的机会。
“保护主义”VS“开放模式”
英国埃克塞特大学医学院的人类遗传学教授Timothy Frayling目前正在使用这些资源,他谈道:“科学家们在过去十年里取得了稳步的进展,我们对遗传变异的理解逐渐深入。但过去我们的做法是,将来自世界各地数百个研究的基因数据汇集起来,每个研究的对象可能只有几百至几千人,这是一个漫长而繁琐的过程。但现在我们有了英国生物样本库的数据,我们可以在几天之内完成以前需要几年的分析。”
目前,全球范围的研究人员都得到获批,开始使用这些数据,例如澳大利亚、新西兰和马来西亚等很多国家已经得到了英国生物样本库的批准。EBI的发言人表示,这些数据的使用有一半以上来自英国以外的地区,来自北美和欧洲的研究人员也表现出巨大的兴趣。
Frayling谈道,科学家希望英国生物样本库所展示的开放模式能够被其他国家所采用,摒弃目前的“保护主义”。因为资源是完全开放的,所以分析工作可以由来自世界各地的合法科学家进行,唯一的要求是表明你有能力分析和解读数据。他接着谈道,这种访问模式是前所未有的,并表示英国生物样本库的做法是“科学民主的最终结果”,将使病人和医疗保健的效益得到更快的传递。
英国生物样本库发言人Trehearne也指出,作为由英国医学研究委员会和惠康信托基金资助的公共资源,英国生物样本库的权利是使其数据得到广泛应用,其目标是提供一种真正有用的资源。
斯坦福大学医学教授Erik Ingelsson一直在使用这一资源,他也提出了类似的观点。此前,Ingelsson一直在使用英国生物样本库公布的有限数据,现在终于可以使用完整资源,用于开展与心血管疾病、肥胖和糖尿病有关的一系列项目。
Ingelsson在数据发布会上说道:“对于任何从事人类遗传学工作的人来说,这都是一个重大的改变。从传统的流行病学项目到GWAS研究,这些遗传数据都十分宝贵。许多人都使用过临时版本,但他们一直在期待这一天。这是一种完全革命性的方式,还有其他很多优秀的资源也处于封锁中。英国生物样本库已经做了正确的事,这是非常无私的,将对人类遗传学领域产生深远的影响。”
此外,作为英国生物样本库协议的一部分,他和其他使用数据的研究人员在完成研究后,必须将项目生成的所有数据以及所有代码、算法和其他工具返还给英国生物样本库。
据悉,正在进行遗传数据发布的EGA系统,已经为庞大的数据需求做足了准备。EBI及EGA的构架团队负责人Thomas Keane表示,相关资源已经完全建立起来,以处理来自英国生物样本库的高需求数据。在短时间内向世界各地的研究人员提供高达2.4 PB的数据并非易事,其主要技术挑战则是带宽。因此,EGA联合了EBI等多个数据站点,以保证世界各地研究人员的需求。
随着时间的推移,英国生物样本库将开放更多论文数据。开放的模式意味着将有更多的想法涌入,这样的模式也必将发挥出数据资源最大的使用效率,科学界也将从这些开放资源中获得最大的收益。
在很长一段时间里,多方人员都是“各自为政”,数据资源更是孤岛。对于中国,建立国人自己的数据库、实现数据共享还有任重道远。现在,英国生物样本库已经改变了这个等式,投入了数据共享的第一剂“催化剂”,那么接下来,会产生怎样的“化学反应”呢……
参考资料:
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!