近日,韩国研究团队公布了韩国基因组计划(Korea1K)的初期阶段数据,描述了1,094个全基因组以及79个定量临床特征的信息。相关结果发布在Science Advances上,文章题为“Korean Genome Project: 1094 Korean personal genomes with clinical information”。
随着基因测序技术的不断发展,各国已陆续开展多项基因测序计划,包括中国十万人基因组计划、UK 10K项目、荷兰基因组(GoNL)项目等。然而在表征全球人类遗传多样性的全球全基因组计划,即多种族1000基因组计划中包含2500多个基因组,包括中国和日本人,但不包括韩国人群样本。目前,韩国基因组变异数据库KoVariome仅包含50个韩国全基因组序列,且在发表之时没有关联临床信息。虽然其样本量随后增加到了100多个基因组,但仍没有收集到有关参与者的生化和临床数据,以及关于基因型-表型关联信息来表征人群的健康和疾病状况。
基于这一现状,韩国蔚山国立科学技术研究所(UNIST)、韩国国家标准参考数据中心联合哈佛医学院的个人基因组计划等机构共同发起了韩国基因组计划(KGP)。Korea1K是KGP项目的第一研究阶段。据悉,Korea1K是迄今为止韩国开展的最大基因组测序项目,研究目标是收集、分析韩国人基因组信息并进行分类,以用于临床和人类学研究,主要用途之一为癌症研究领域。
在Korea1K研究中,研究团队对1,094名韩国人进行了全基因组测序,平均深度为31x,以利用这些数据来表征SNV、插入缺失、CNV、转座子插入和韩国人群中的人类白细胞抗原(HLA)类型。为评估这个大型基因组数据集的实用性,研究人员对来自参与者79种临床特征的信息进行了全基因组关联研究(GWAS),其临床特征信息从参与者的血液和尿液中获得。此外,研究团队还通过分析19个此前发表的韩国胃癌患者基因组作为参考,以验证数据集的有效性。
图1.新变体的统计和发现率。
该研究目前鉴定了约3400万个单核苷酸变体和480万个插入缺失,其中一半被发现是双峰或单峰。同时,研究人员发现,与1000基因组panel(1KGP)相比,Korea1K的精度更高,可更有效过滤癌症样本。此外,该项目新生成了1007个基因组的数据,信息包括韩国人群的插入缺失表征、SNV、转座因子插入、CNV和人类白细胞抗原类型,这些已与来自其他人群的数据进行了比较。
图2.与其他人群的比较。
研究人员根据变体在韩国人群中的等位基因频率将其分为五类。通过分析,发现已检测的双峰或单峰中有70%以上从未报告过,只有不到20%为常见变体。在等位基因频率> 0.05定义为非常常见突变的前提下,研究显示,每个人平均约有442万个变体(3.58 M个非常常见,0.4 M个常见,0.31 M个罕见,0.46 M个双峰变体和0.85 M个单蜂变体),其中包含8928个非同义突变和918个功能丧失突变(LoF)。同时,研究发现,插入缺失中的缺失多于插入,表明该研究可能存在变体识别偏好。
研究还发现了在ClinVar中标注的35种药物反应变体。与1KGP中的中国或日本个体相比,Korea1K中的11个个体的等位基因频率显着不同,突出了在了解病原或药物反应变体时特定人群数据集的重要性。例如,与其他人群相比,ADD1基因中的rs4961变体在Korea1K数据集中具有最高的频率。该变异与高血压等有关,但研究人员使用Korea1K进行的GWAS中未发现与血压有显著关联。
研究团队指出,虽然该数据集的当前样本量仍然不足以代表韩国人口或绘制潜在的基因组结构变异。但Korea1K可以作为临床和人群遗传学研究的基因型和表型资源,该数据集可为以后的工作提供强有力的参考,为增强韩国个性化医疗应用提供帮助。
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!