来源:K. Krause and J. Krzysztofiak/Nature
自2002年,美国国立医学图书馆(NLM)就启动了一项工作:对PubMed数据库中涉及基因(或其编码蛋白)的结构、功能研究的文章进行标记,共统计了解析27000人类基因(包括RNA基因和假基因)的565000篇文献。
11月22日,Nature News发表文章“The most popular genes in the human genome”,就职于哈佛大学医学院致力于研究基因组数据可视化的博士后Peter Kerpedjiev,根据从NLM项目中提取的所有标记为描述基因结构、功能和位置,以及其编码蛋白质的论文,罗列出在过去50年中研究最热门的10大基因,它们依次为:TP53、TNF、EGFR、VEGFA、APOE、IL6、TGFB1、MTHFR、ESR1、AKT1。
Peter Kerpedjiev是一位软件工程师,曾接受过生物信息学培训,他表示需要一个遗传学速成课程,因为这样有助于了解生物学的一些基础知识,“如果我想和其他科学家进行有效交流,我需要了解哪些基因呢?”他希望能得到答案。因此通过整理基因数据,他给出了一份人类基因组中热门基因的“顶级列表”。
热门基因TOP10 来源:Peter Kerpedjiev/NCBI-NLM
3年前,Peter Kerpedjiev正式开始这一统计研究时,关于TP53及其编码蛋白p53的研究论文就有6600篇。现在,这个数字达到8500篇。平均而言,每天会有两篇描述TP53基本生物学新细节的文章发表。
TP53基因是迄今发现的与人类肿瘤相关性最高的基因,作为人体内重要的抑癌基因,TP53不仅可以阻止肿瘤细胞分裂,诱导肿瘤细胞凋亡,还可以修复正常DNA的损伤,因此TP53基因也被称作“基因警察”。据统计数据显示,75%的癌症患者都存在TP53基因突变,TP53变异与近一半以上的癌症发生有关。这也是它成为基因界最大热门的原因。约翰斯•霍普金斯大学医学院的癌症遗传学家Bert Vogelstein认为,在癌症领域,没有其他基因比TP53更重要了。
但是图表中一些其它基因的知名度还不是很高,包括一些在过去研究中备受关注的基因,但随着技术的进步,有些基因慢慢被淘汰了。 Kerpedjiev表示,这个列表很让人惊讶,其中有些基因是可以预测的,但一些其他基因则完全出乎意料。
为了解更多信息,Nature与Kerpedjiev一起分析了有史以来研究最多的基因,列出了这份表单。表单揭示了生物医学研究的重要趋势,揭示了如何将对特定疾病或公共健康问题的研究重点转移到潜在基因,同时表明,其中某些基因在跨学科和疾病领域研究中占据了主导地位。
从2002年第一次公布了人类基因组草图之后,NLM开始系统性地将“基因参考功能”(GeneRIF)添加到论文中。这种注释一直延伸到了20世纪60年代,其中也采用了其它数据库来帮助填写细节。但这并不是一个完美的策划记录。NLM科学家Terence Murphy表示,这个数据集背景很多,2002年以前发表论文的取样可能存在一些偏差。这意味着一些基因被过度重视,而一些基因可能被错过了。
需要注意的是,PubMed记录揭示了几个不同的历史时期,其中基因相关的论文倾向于关注特定的热门话题。 例如,在20世纪80年代中期之前,许多基因研究以血红蛋白为基础。1985年以前,人类遗传学研究中有超过10%的研究是关于血红蛋白的。
不同时期热门基因 来源:Peter Kerpedjiev/NCBI-NLM
上世纪40、50年代,Linus Pauling和Vernon Ingram两位诺贝尔奖获得者开创性地从分子层面发现异常的血红蛋白(haemoglobin)会引发镰状细胞病(sickle-cell disease)。而此时许多研究人员还在Linus Pauling和Vernon Ingram早期工作的基础上展开研究。1962年,Max Perutz也因其在血红蛋白三维结构上的成就而获得诺贝尔化学奖。
来自美国国立卫生研究院的Alan Schechter教授认为,对血红蛋白基因的研究开启了从分子水平解析疾病的大门。他表示,在上世纪70年代和80年代初,这类基因是血液疾病、遗传学会议的一个讨论焦点。但是,随着测序和DNA操控技术的发展,科学家们开始关注其他基因和疾病,例如艾滋病。
在1983年HIV病毒被发现之前,已经有临床医生发现这一奇怪的患病模式,David Klatzmann回忆道,我对这些患者体内没有T4细胞感到十分震惊。在细胞培养实验中他发现,HIV似乎选择性地感染和破坏T4细胞,它是免疫系统T细胞的一个组成部分。但问题是:病毒如何进入细胞的呢?
Klatzmann推断,CD4+T细胞表面的蛋白是HIV病毒感染入侵的关键受体。事实证明,他是对的。1984年12月,他发表了相关研究成果。来自伦敦癌症研究所分子病毒学家Robin Weiss等人都提出的类似的观点。在三年内,CD4成为研究最火热的基因,也是生物医学文献中报道最高的基因,占了NLM所有标签的1-2%,也大大促进了免疫学的发展。
到1990年初,TP53开始进入大家视角。但是在它爬到人类基因研究阶梯的顶端之前,一个名为GRB2的基因已经占据了科学家视线多年。
当时的科学家们更热衷于研究与细胞通讯有关的特定蛋白质相互作用。由于细胞生物学家Tony Pawson的开创性工作,科学家们知道一些小的细胞内蛋白质含有一个称为SH2的模块,可以与细胞表面的活化蛋白质结合并将信号传递给细胞核。1992年,耶鲁大学医学院的生化学家Joseph Schlessinger发现,GRB2基因编码的蛋白含一个SH2结构域以及两个参与细胞生长存活的结构域。在某种程度上,GRB2是开启信号转导研究的热门分子。
此后其他研究人员很快就填补了空白,开启了信号转导的研究领域。然而尽管许多其他细胞信号传导组件陆续被发现,并最终延伸到了癌症,自身免疫性疾病,糖尿病和心脏病的治疗上去,但是GRB2依然处于顶端位置,并且在20世纪90年代后期成为三年的热门基因。
但在研究的基因清单中,GRB2算是一个异类,因为它既不是疾病的直接原因,也不是药物靶点。所以,它仅仅在90年代初活跃了几年而已。Karolinska研究所的Thierry Soussi研究员评价道,因为没有临床价值,这个新星很快就陨落了,具有持久力的基因通常表现出某种吸引资助机构支持的治疗潜力,一个基因的重要性往往与其临床价值关联。
西北大学的系统生物学家Thomas Stoeger指出,他可以预测哪些基因最受关注,只需将这些基因属性与算法想结合。这些关联原因很大程度上归结于所谓的可发现性。热门基因碰巧出现在生物学热门领域中,可以通过工具进行分析,有目标的研究更容易进行。但有一个问题,就是大量的基因还没有被描述,也没有被深入研究,这在理解人类健康和疾病方面留下了很大的空白。他还指出研究也会受政治和经济因素的影响。
Stoeger还追踪了热门基因的一般特征是如何随时间改变的。他发现,在20世纪80年代,研究人员主要关注那些产胞外蛋白的基因, 这可能是因为这些蛋白质最容易分离和研究。 最近才注意到产胞内物质的基因。这种转变发生在人类基因组发表的过程中,这导致更多的基因被深入研究。
热门基因在染色体中分布 来源:Peter Kerpedjiev/NCBI-NLM
TP53在2000年左右就成为研究最多的基因,但它最初并没有得到正确的理解。起初,癌症研究界把它误认为癌基因。直到1989年,Vogelstein实验室的研究生Suzanne Baker发现它实际上是一种抑癌基因,自此TP53的基因功能研究才逐渐崭露头角。所以TP53经历这么多年才站在了列表的顶端。
排在列表亚军位置的是TNF,它在NLM数据中被引用次数已经超过5,300。TNF编码一种肿瘤坏死因子,能够杀死癌细胞而于1975年命名。但是抗癌并不是TNF的主要功能,科学家们在人体中检测时发现,这一基因原来是炎症的介质,因此将注意力迅速转移到检测阻断其作用的抗体上。现在,抗肿瘤坏死因子疗法是治疗类风湿性关节炎等炎症性疾病的主要药物,全球年销售额达数百亿美元。纽约曼哈塞特医院研究所的神经外科医生和免疫学家Kevin Tracey说:“这是人们对基因和基因产物的认识迅速地改变世界健康状况的一个范例”。
除了上述的TNF,TOP53的榜首地位还受到APOE的威胁。APOE参与脂蛋白的转化与代谢过程。20世纪70年代中期,APOE被认为是预防心脏病的一种降脂疗法,但被他汀类药物淘汰。随后,神经学家 Allen Roses团队发现,APOE蛋白参与阿尔兹海默症病斑的形成。1993年,他们鉴定出APOE4基因,证实它是阿尔兹海默症主要的风险基因,APOE4和阿尔茨海默病风险之间的遗传关系是毋庸置疑的。人们对APOE4的关注也越来越多,2001年,APOE甚至略微超过了TP53。
基因分布 来源:Peter Kerpedjiev/NCBI-NLM
除了人类,NLM还追踪了其他几十个物种的基因研究,包括小鼠、果蝇、病毒等。结果显示,过去50年研究最多的100个基因中,超2/3是人类基因。
一个基因要想成为热门顶端基因,需要生物学、社会压力、商业机会和医疗需求等各方面在一定程度上的融合。但是现在的问题是,未来条件如何改变,什么样的新发现能够把今天的顶级热门基因TP53拉下神坛?
参考文献
1.Mitchell, J. A. et al. AMIA Annu. Symp. Proc. 2003, 460–464 (2003).PubMed
2.Klatzmann, D. et al. Science 225, 59–63 (1984).PubMedArticleCAS
3.Klatzmann, D. et al. Nature 312, 767–768 (1984).PubMedArticleCAS
4.Dalgleish, A. G. et al. Nature 312, 763–767 (1984).PubMedArticleCAS
5.Maddon, P. J. et al. Cell 42, 93–104 (1985).PubMedArticleCAS
6.Deng, H. et al. Nature 381, 661–666 (1996).PubMedArticleCAS
7.Lowenstein, E. J. et al. Cell 70, 431–442 (1992).PubMedArticleCAS
8.Baker, S. J. et al. Science 244, 217–221 (1989).PubMedArticleCAS
9.Mahley, R. W. et al. J. Clin. Invest. 83, 2125–2130 (1989).PubMedArticleCAS
10.Strittmatter, W. J. et al. Proc. Natl Acad. Sci. USA 90, 1977–1981 (1993).PubMedArticleCAS
11.Morgan, T. H. Science 32, 120–122 (1910).PubMedArticleCAS
12.Green, M. M. Genetics 184, 3–7 (2010).PubMedArticleCAS
13.Friedrich, G. & Soriano, P. Genes Dev. 5, 1513–1523 (1991).PubMedArticleCAS
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!