专访卫吉尔生物创始人、CEO刘长胜博士：建属于中国人的基因组数据库，助力遗传病诊断

陈初夏人物 2018-05-09

2017年4月，卫吉尔生物创建的专属于中国人的基因组数据库——中华人群基因组突变数据库（CNGMD）v1.0正式发布，CNGMD收集公开发表的中国大陆香港台湾，新加坡、韩国和美洲华人的基因组数据，主要包括全外显子、全基因组、RNA-Seq的数据，其中汉族人占多数。数据库中包含传染病、遗传疾病、癌症等共计40余种，并按疾病种类分别统计人群频率。2018年4月20日CNGMDv5.0正式上线，从1年前v1.0发布到v5.0更新版本，CNGMD数据库包含样本数量已达到11741人，日均访问量超过数千人次，网站访问量已突破18万人次，为中华人群精准医学研究与应用进步做出了重要贡献。

在遗传年会上，卫吉尔生物对CNGMD的相关研究分析数据进行了报告，借此机会，针对CNGMD v5.0版本的发布，测序中国对卫吉尔生物创始人兼CEO刘长胜博士进行了专访，作为资深基因数据分析专家，刘长胜博士对CNGMD数据库的建立和意义、研究进展以及国内外人群基因数据库研究进行了介绍，并分享了CNGMD数据库未来开发利用的一些想法。

CNGMD数据库的建立与新发现

测序中国：CNGMD中华基因库的建立无疑成为了了中国人群的精准医学研究的一大助力，您创建数据库的初衷是什么？

刘长胜博士：几年前，我进行年度体检的时候发现红细胞多，铁过载到正常人的4倍并且和家族遗传病史符合，于是进行了基因检测。然而令我意外的是，在医院和基因检测公司检测的几个相关基因结果均为阴性。经过分析排除各种因素，我们发现这不是特例，中国人群和外国人群的疾病易感位点存在明显的差异，如苯丙酮尿症的PAH基因，在中国人中以R243Q为主要的致病位点，欧洲人则以R408W的基因突变为主，肝豆状核变性在中国人中以R778L突变为主，而欧洲人以H1069Q突变为主，不同的突变使病人的表现会有较大的差异。

出现上述表型和基因型分析不匹配的情况，是由于目前我们进行致病性分析所使用的基因突变数据库并不适合于中国人，很多中国人特有的致病位点并没有被发现和收录在内，这非常不利于中国癌症、遗传病等相关疾病的研究。

因此，我希望建立咱们中国人自己的基因数据库，检查华人遗传病，为中华人群服务也为自己服务。基于测序技术的发展以及测序数据大规模增加，建立中华人群自己的基因突变数据库尽管有难度，但切实可行，且意义深远，所以我从2016年底开始筹备中华基因库万人基因组项目，2017年4月份正式发布2000人的CNGMD v1.0版数据，此后我们一直在不断扩充数据库的样本量和数据量，历时1年时间完成了近1万2千人的高覆盖度的基因数据收录，CNGMD v5.0也正式发布，实现了项目预期目标，为中华人群的遗传病研究提供更标准更权威的参考。下一版将提供两万人的数据，使得中华人群的基因数据更加准确。

卫吉尔生物的中华人群万人基因组项目，不仅分析中华人群的基因信息，而且综合Genetics Home Reference、GeneReview、OMIM、MedGene、ClinVar，ClinGen等专业数据库的内容，支持上万种遗传疾病相关基因和相关信息的检索，主要涵盖基因检测、症状分析、诊断、治疗和专业建议等信息服务，旨在帮助研究者更准确地锁定与疾病相关的基因变异，助力遗传疾病的诊断与治疗，为国人提供更多方便。

测序中国：基于CNGMD数据库是否已经有相应文章公开发表？其背后的商业价值有哪些？

刘长胜博士：目前中华人群基因突变数据库和应用文章以及相关专利都正在撰写中，我们将陆续为大家呈现更全面更专业的数据解读。谈到商业价值，其实遗传数据具有很高的商业价值潜力，在公开发布中华人群基因突变数据库CNGMD v1.0版本前，并没有任何正式公开发布的中华人群基因组数据库出现，所以这是一项创新的、极具价值的工作。

大数据是未来健康产业的基石，我们的伙伴公司——华生基因开创了金琉璃平台，为肿瘤精准医疗大数据服务，实现了营收数亿元的无实验室的先例，同时阿里巴巴也开发了平台做销售创造了中国奇迹，我们希望在遗传病方向能够有所突破发展。

测序中国：很多人都想了解患有某种遗传性癌症的病人得另一种癌症的可能性是更大还是更小，在您的研究过程中，对于遗传性疾病的关联性是否有新发现？

刘长胜博士：在数据库的建立过程中，通过大量分析，我们发现不同遗传性疾病之间存在一定关联，如在食道癌研究过程中，缪小平、吴晨合作组发现中国人有易感位点，利用基因芯片发现的健康人和食道癌患者的基因频率及其风险和我们的外显子组测序分析结果完全一致，他们的研究首次揭示全反式视黄酸代谢与中国人群食管癌风险相关。我们团队进一步对中国人多种癌症样本对视黄酸代谢位点进行了更多研究，发现该位点对乳腺癌的负面影响更大，却会降低肝癌风险。

此外，我们发现在肝豆状核变性中，中国人基因ATP7B上的SNP p.R788L可以引起肝硬化，但在肝癌患者中则很少出现这个突变，说明大量铜离子和铁离子在细胞中积聚会引起肝硬化，这反而会减少癌变的发生。我们还发现了很多新位点，还需要更多临床数据和医生来配合提出更好的解决方案。这得益于CNGMD的样本中有大量疾病样本，我们统计分析了每一个位点在每一种疾病中的突变频率和风险比，虽然工作量几何倍增，但也收获了更多有价值的信息，现在这些内容已在CNGMD网站公开发布。

集专业性与唯一性于一身

测序中国：CNGMD数据库有怎样的特点？国内外是否还有其他团队在做和您一样的事情？

刘长胜博士：据我了解，目前还没有哪个团将万人以上、高测序深度的中国人群基因组数据公开或在公开领域中应用。CNGMD v5.0中包括中华人群的各个位点基因频率、等位基因数、各位点在几十种疾病组中或种族组人群中的基因频率等信息，共计1亿多个变异位点，其中mRNA外延200bp区域有1200多万个位点，外延100bp区域有1016万多个位点，编码区（CDS）有260多万个位点。每个低频（MAF<0.005）变异位点，都可以追溯到原文作者、研究项目、疾病类型、数据质量和患者性别年龄，这样更容易发现和比较相同的病型，浓缩导致相同疾病的基因和位点。

针对每个SNV，数据库都基于总人群、疾病、民族和地域（包括中国大陆各地域、中国台湾、新加坡和韩国等）给出了不同的统计频率，这在中国人的临床诊断中具有极大的参考价值，特别是疾病相关的基因发生纯合的低频SNV时更为有效。新加坡和韩国人的数据作为中国人群的南方和北方外延，也为中国南方人和北方人的基因数据准确性提供了精确的验证。

CNGMD数据库不仅提供了庞大的数据支持，也做了非常详细的疾病-基因关联和中文解析，疾病类型、症状、相关基因和某突变位点是否致病等问题，CNGMD网站都可以给出答案，甚至在线就可以智能分析*.bed或*.vcf文件，网站拥有10,000多种遗传病的中英文信息和症状描述（其中不乏罕见病），涵盖了ClinVar和GHR所列的病种，不仅能为科研人员提供数据支持，更为大众提供了解遗传病、罕见病的渠道。

在CNGMD网站公布1.2万人基因组后，华大也公布了14万人产前诊断超低层数的数据，他们发现了900万个变异位点；复旦大学金力院士开发的华表数据库，去年已经报告完成了近千人的外显子组测序；台湾地区人体生物数据库公开报告了1500人的7千多万个位点；日本也公开报告了3500人的5千多万个位点，此外尽管有许多团体声称拥有10k-1000K的基因组数据，但并没有任何一个公开在临床研究和临床诊断环境中使用。

研究收获与后续开发利用

测序中国：在数据库建立和1.2万人基因数据的分析过程中，您最骄傲和最大的收获是什么？

刘长胜博士：首先在国际上，我们第一次整合了大量中华人群基因组数据，我们很荣幸也很骄傲能进行这份独创性研究工作。其次数据库在实际运营中证明其自身价值，目前CNGMD网站的日均访问量为数千人次，总访问量超过18万人次，第五版发布的几天内就增加了几万人次的访问量，这是目前唯一被大量使用的中国人群基因组数据。

谈到收获，我想可分为四点：一是培养了专业团队，开发了很多相关软件；二是整合了更多外显子、全基因组和测序数据，包含RNA-Seq、Chip-Seq数据，大量样本极大地增强了分析结果的可靠性；三是数据库已经可以实际应用，帮助很多临床医生解决了之前没有解决的遗留难题，国内外很多实验室和医生缺乏亚洲人，特别是中国人的数据，我们的研究弥补了这个缺憾；四是我们首次将中国人群基因组的每个位点在地域和民族中的分布进行了分析和展示，利用基因突变频率可以减少检查的可能致病位点数目，此外数据库把每个样本的来源和详细疾病信息也展现给用户，帮助他们找到可能的致病位点，并与已经发表的同类疾病的样本及国外的数据库进行比较分析。CNGMD是唯一一个提供万人基因库样本信息与溯源的数据库。

测序中国：针对这近1.2万人的基因组数据，您的团队将会如何进行后续开发和有效利用？

刘长胜博士：未来我们希望有更多人应用中华人群基因突变数据库CNGMD去发现早期遗传病，选择健康的胚胎，帮助找到更适合患者的药物。随着数据库用户的逐步增加，网站的运营和维护等都需要投入更多人力物力，所以我们希望在增加流量和用户群的基础上，和药企、基因检测机构合作，为大家提供深层次的大众健康、疾病诊断及研究服务。未来这条路可能并不好走，但我们会一路前行。

目前我们已经利用数据库分析得出了中国人部分疾病的发病率、肝癌和食管癌的病因、肝豆状核变性的致病SNVs等。中华人群基因突变数据库已经为很多人筛查了许多家系的低频致病突变，我们发现，通过比较中华基因数据库中病人的基因型和正常人基因型，就很容易找到中华人群的致病热点和热点区域。用中华基因库12000人的数据作为对照，可以帮助研究人员减少疾病关联分析的成本，提高疾病关联分析的准确性，找到同类病人的致病基因与位点。

CNGMD中华基因数据库网站：http://CNGMD.VirgilBio.com

本文由 SEQ.CN 作者：陈初夏发表，转载请注明来源！

关键词：CNGMD, 中华人群基因组突变数据库, 刘长胜, 卫吉尔生物, 基因组数据库, 样本信息, 溯源, 遗传性疾病

人物