Genomics, Proteomics and Bioinformatics期刊2017年第一期在线发表了一篇数据库相关论文“基因组序列归档库”(Genome Sequence Archive,简称GSA)[1]。作者来自中国科学院北京基因组研究所大数据中心(BIG Data Center, Beijing Institute of Genomics,简称BIGD),文中对他们开发的GSA平台作了简要介绍。该平台旨在收集、整合和发布国内外用户递交的原始序列数据。GSA项目是基因组所大数据中心正在进行的几个主要研究开发项目之一,该中心由近50位年轻的生物信息学研究开发人员组成。除GSA项目外,还开展了多项面向生物信息资源服务的课题 [2]。
最近半个多世纪以来,分子生物学取得了长足的进展。DNA双螺旋的发现、遗传密码的破解、中心法则的提出,为分子生物学研究奠定了坚实的理论基础。与此同时,费雷德里克·桑格(Frederick Sanger)等先后建立了蛋白质、tRNA和DNA序列测定方法,约翰·肯德鲁(John Kendrew)和马克斯·佩鲁茨(Max Perutz)解决了X-射线晶体衍射解析蛋白质三维空间结构的难题。这些开拓性的研究,为日后分子生物学数据积累提供了必不可少的技术储备。
最早从事蛋白质序列收集的是美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)的生物信息学先驱玛格蕾特·戴霍芙(Margaret Dayhoff)博士(https://en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff)。1965年,她把当时能收集到的65个蛋白质信息编纂成册,并以《蛋白质序列和结构图册》(Atlas of protein sequence and structure)为名公开发表,并在以后的几年中不断更新再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”(Protein Information Resource,简称PIR)的雏形。基于收集到的蛋白质家族序列,戴霍芙构建了氨基酸替换计分矩阵PAM,至今仍广泛用于序列比对和数据库相似性搜索。PIR于1984年正式上线,用户可通过电话网络进行查询。两年后,瑞士日内瓦大学在读研究生埃姆斯·贝洛克(Amos Bairoch)开始对蛋白质序列进行人工注释(https://en.wikipedia.org/wiki/Amos_Bairoch),为每个序列条目添加功能和相关文献等信息,并在此基础上创建了著名的“瑞士蛋白质序列数据库”(Swiss-Prot)。
第一个蛋白质结构数据库(Protein Data Bank,简称PDB)创建于1971年。与蛋白质序列数据库分别诞生于美国和欧洲不同,PDB的建立是欧美两国合作者共同努力的结果。1971年,英国剑桥晶体学数据中心(Crystallographic Data Center)和美国布鲁克海文国家实验室(Brookhaven National Laboratory)在《自然:新生物学》(Nature: New Biology)发布短讯,宣告该数据库系统开始运行 [3]。双方各自保存相同的数据文件,并免费向用户发布。1998年,美国结构生物信息学研究协作组(Research Collaboratory for Structural Bioinformatics,简称RSCB)成立,负责蛋白质结构数据库运行,称RSCB PDB。
70年代末,由桑格等建立的DNA测序方法日趋成熟,核酸序列开始累积。欧美各国有识之士敏锐地意识到,大规模测序很快就会到来,建立核酸序列数据库的任务已经提上议事日程。1979年,美国能源部下属洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)沃特·高德(Walter Goad)领导的计算生物学研究组开始利用计算机收集核酸序列,并开发序列分析计算机软件,著名的序列局部比对Smith-Waterman 算法也因此应运而生。获美国国立健康研究院(National Institute of Health,简称NIH)以及科学基金会(National Science Foundation,简称 NSF)、能源部(Department of Energy,简称DOE)和国防部(Department of Defense,简称DOD)等部门资助,核酸序列数据库GenBank开始运行。就在同一年,位于德国海德堡的欧洲分子生物学实验室(European Molecular Biology Laboratory,简称EMBL)发布了欧洲版的核酸序列数据库EMBL-Bank(有时也简称EMBL)。
八十年代中后期,核酸、蛋白质序列和蛋白质结构数据库已经积累了相当可观的数据,而基于中小型和微型计算机的序列和结构分析软件也不断涌现。与此同时,由美国科学基金会资助的为科研教育服务的计算机网络NSFNet也开始投入使用。1988年11月,由已故参议员克劳德·裴帕尔(Claude Pepper)提议,位于美国首都华盛顿北郊的美国国家生物技术信息中心(National Center for Biotechnology Information,简称NCBI)成立。NCBI隶属美国国家医学图书馆(National Library of Medicine,简称NLM),而NLM则是NIH的一个下属机构。NCBI成立初期,仅8名人员,经过近30年的建设,NCBI已发展成国际上最大的生物信息中心,著名的数据库搜索软件BLAST主要开发者之一大卫·李普曼(David Lipman)担任主任至今。NCBI拥有上百个数据库和软件工具,包括著名的生物医学文献摘要数据库PubMed、参考序列数据库RefSeq、数据库相似性搜索软件BLAST等。1989年,核酸序列数据库GenBank也由NCBI接管。
欧洲生物信息学研究所成立于1994年,坐落在英国剑桥南部12英里维康基金会(Wellcome Trust)基因组园区内。EBI是EMBL的一个下属单位,主要经费来自欧盟,研究人员主要来自西欧各国。经过20多年的建设,EBI已经成为仅次于NCBI的国际生物信息中心,为欧洲各国和世界各地用户提供生物信息资源服务,并从事生物信息研究开发。除核酸序列数据库EMBL外,EBI还有许多特色数据库,如基因组数据库ENSEMBL、蛋白质家族和结构域数据库InterPro、基因本体数据库Gene Ontology等。
由美国政府部门资助的国家级生物信息中心NCBI和由欧盟资助的生物信息机构EBI的成立,为生物信息资源服务提供了人员和经费保障,促成了国际数据库联盟的建立。2003年,EBI的蛋白质结构数据库PDBe,日本蛋白质结构数据库PDBj和美国蛋白质结构数据库RSCB PDB共同组成国际蛋白质结构数据库联盟wwPDB(http://www.wwpdb.org/)。2005年,NCBI、EBI和1987年成立的日本核酸序列数据库DDBJ达成协议,建立国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration,简称INSDC,http://www.insdc.org/)。同年,EBI的TrEMBL与Swiss-Prot和PIR一起,组成了国际上统一的蛋白质序列数据库UniProt(http://www.uniprot.org/)。其中,TrEMBL是核酸序列数据库EMBL中的编码区翻译所得的蛋白质序列。
20世纪90年代诞生的国际互连网,标志着信息时代的到来。正如诺贝尔奖获得者沃特·吉尔伯特(Walter Gilbert)于1991年1月发表在Nature上的卓有远见的文章中指出的那样,“我们必须把各自的个人电脑接入全球互联网,以便充分利用日新月异的数据库资源,并通过网络进行直接交流”[4]。他明确指出,生命科学研究面临着一个模式的改变。十年后的2001年2月,由政府资助的人类基因组计划(Human Genome Project,简称HGP)[5] 协作组和美国Celera公司 [6] 分别发布了人类基因组草图,标志着基因组学研究进入了一个新阶段。得益于高通量、低成本的新一代测序技术的快速发展,数以万计的基因组和宏基因组已经测定。根据基因组在线数据库的统计数据,265,734个不同个体的基因组测序已经完成或正在进行(GOLD, https://gold.jgi.doe.gov/)[7]。毋庸置疑,大数据革命将在未来几年中极大地影响分子生物学研究,而数据收集和发布是必不可少的重要步骤 [8]。
近三十年来,尽管我国生物信息学研究开发取得了一定成绩 [9],但在生物信息资源建设方面,却几乎还是空白。历史是最好的镜子,上述历史回顾告诉我们,在提供生物信息资源服务方面,我国已远远落后于欧美各国;三大国际数据库联盟中,根本就没有中国的踪影。为应对即将到来的大数据浪潮,建立国家级的生物信息资源和服务体系势在必行。遗憾的是,过去十多年来,尽管郝柏林院士等国内许多有识之士大声疾呼,我国的国家级生物信息中心依然渺无音讯(http://blog.sciencenet.cn/blog-1248-237322.html)。
值得庆幸的是,由中国科学院北京基因组研究所大数据中心BIGD开发的“基因组序列归档系统”GSA项目已经启动。自2015年12月上线以来,国内39个研究机构近200个研究课题已经把他们的数据汇交到GSA平台。更加令人欣喜的是,该系统也得到了国际上的认可,美国科学院院报PNAS等多个期刊已经发表了汇交到GSA的学术论文。GSA系统只是该大数据中心BIGD的主要项目之一 [2],数据库构建、基因组变异图谱等其它多个项目也已经开始,其特色数据库涵盖了基因组、转录组、甲基化组等各个方面,而若干重要动植物的基因组变异数据库也已经上线。此外,国际生物信息数据库目录(Database Common)、水稻信息资源维基(RiceWiki)等也是该中心开发的特色平台。
在国际合作方面,BIGD也已经迈出了重要的一步。2016年年底,BIGD举办生物信息大数据讨论会,NCBI和欧洲分子生物学网络组织(European Molecular Biology Network,简称EMBNet,http://www.embnet.org/) 等机构的学者应邀参加,与中心成员交流生物信息研究、开发、服务的经验。此外,中心聘请了NCBI、EBI、DDBJ等国际著名生物信息中心的资深人士担任科学顾问,并于2017年春节前召开了第一届国际科学顾问委员会会议。
当然,BIGD还刚刚建立,需要得到政府部门的资助和用户群体的支持,才能不断发展壮大,为建立我国国家级的生物信息中心奠定基础。值得深思的是,BIGD从事的公益性、服务性的工作,在目前国内“以学术论文论英雄、以影响因子排座次”的评价体系下,很难得到足够重视,希望BIGD近50位年轻的生物信息研究开发人员要有“板凳坐得十年冷”的思想准备。在此,借用英国学者Alan Bleasby的话,聊以共勉:“I don’t think we can get a Nobel prize by what we are doing so, but the Nobel prize winners know what we are doing for”。
[1] Wang Y, Song F, Zhu J, Zhang S, Yang Y, Chen T, et al. GSA: Genome Sequence Archive Genomics Proteomics Bioinformatics 2017; http://dx.doi.org/10.1016/j.gpb.2017.01.001.
[2] BIG Data Center Members. The BIG Data Center: from deposition to integration to translation. Nucleic Acids Res 2017;45:D18–24.
[3] Berman HM, Kleywegt GJ, Nakamura H, Markley JL. The Protein Data Bank at 40: reflecting on the past to prepare for the future. Structure 2012;20:391–6.
[4] Gilbert W. Towards a paradigm shift in biology. Nature 1991;3496:99.
[5] Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature 2001;409:860–921.
[6] Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, et al. The sequence of the human genome. Science 2001;291:1304–51.
[7] Mukherjee S, Stamatis D, Bertsch J, Ovchinnikova G, Verezemska O, Isbandi M, et al. Genomes OnLine Database (GOLD) v.6: data updates and feature enhancements. Nucleic Acids Res 2017;45:D446–56.
[8] Toronto International Data Release Workshop Authors. Prepublication data sharing. Nature 2009;461:168–70.
[9] Wei L, Yu J. Bioinformatics in China: a personal perspective. PLoS Comp Biol 2008;4:e1000020.
文章编译来源:Jingchu Luo. GSA and BIGD: filling the gap of bioinformatics resource and service in China. Genomics Proteomics Bioinformatics 2017;15(1).
来源:中国科学院北京基因组研究所/罗静初
本文由来源 中国科学院北京基因组研究所/罗静初,由 戴胜 整理编辑!