科研

首页 - 全部文章 - 科研 - Nat Commun | 郑厚峰团队发表样本量最多、种群多样性最丰富的亚洲人群单倍型参考panel

Nat Commun | 郑厚峰团队发表样本量最多、种群多样性最丰富的亚洲人群单倍型参考panel

全基因组关联研究(GWAS)可在全基因组层面上揭示疾病发生、发展与治疗相关的遗传基因。基因型插补(genotype imputation)是GWAS的一个重要工具,可以精确地预测没有被芯片所覆盖的多态性位点的基因型,使得更多的遗传位点应用到关联分析中,从而提高发现新致病基因的可能性,并有助于发现风险变异的多效效应。

基因型插补需要单倍型参考panel。多样化的参考panel可以提高遗传多样性群体的插补准确性,而特定祖先的参考panel可以使相应的群体受益。由于插补的准确性直接影响后续分析的可信度,因此在插补之前选择合适的参考panel至关重要。
近日,苏州大学附属第二医院郑厚峰团队联合浙江大学、滨州医学院等单位的研究人员在Nature Communications发表文章“SEAD reference panel with 22,134 haplotypes boosts rare variant imputation and genome-wide association analysis in Asian populations”,报道了南亚和东亚人群参考数据库(SEAD)panel,该panel整合了来自17个亚洲国家的11,067个个体的WGS数据。研究团队重点评估了该panel的插补质量,并探索了其在推断骨骼相关性状的可能因果罕见变异中的应用。

此前的大多数全基因组测序(WGS)工作都是在欧洲人群中进行的,这使欧洲人口大规模联合参考panel的发展成为可能。但在人类基因组研究中,缺乏种族多样性可能会阻碍基因组科学的发展。近年来,亚洲多个国家启动了大规模人群测序研究,以了解亚洲人群的遗传基础,例如中国、日本、韩国、新加坡、印度等。其中,中国于2017年启动了西湖华人生物库(WBBC)项目。截至目前,该项目已有4480份全基因组测序样本(WBBC-seq)和6080份全基因组基因分型样本(WBBC-chip),覆盖中国34个行政区划中的29个。

在此次发表的研究中,研究团队整合了来自SG10K(13.7×,4563个样本,3个种群)、GenomeAsia(36×,1031个样本,11个种群)、WBBC(13.9×,4480个样本,1个种群)和高覆盖率的1kGP-Asian(30×,993个东亚和南亚样本,8个种群)的WGS数据,创建了用于基因型插补的综合参考panel SEAD。

由于SEAD panel来自4个不同的数据集,研究团队通过主成分分析评估了批次效应,证实了用于构建单倍型参考panel的数据集中不存在批处理效应。最终,SEAD panel由22,134个单倍型和88,294,957个变异组成,是亚洲覆盖范围最全面的panel之一。

图1:研究设计

为了评估SEAD panel在南亚人群中的插补性能,研究团队利用UKB数据库生成了三个数据集,这些数据集由不同比例的南亚祖先组成(50-70%、70-90%和>90%)。研究发现,SEAD panel在所有祖先组成比例中始终显示出最高比例的低频位点(Rsq > 0.8和MAF < 5%),特别是在>90%组中(图2)。与1kGP、TOPMed和ChinaMAP相比,SEAD panel的南亚人群的插补准确性更高。

研究团队进一步评估了亚洲人群的插补准确性(图2)。与其他三个panel相比,SEAD panel显示杂合子和纯合子基因型的一致性率更高,在特异性和精确度方面也观察到类似的趋势。对于(次要等位基因频率)MAF < 0.05的变异,SEAD比TOPMed和ChinaMAP表现出明显的优势。

图:南亚和中亚人群的插补性能。

随后,研究团队评估了1kGP、TOPMed、ChinaMAP和SEAD panel在东亚人群中的插补精度。与ChinaMAP相比,SEAD的一致性率分布更为集中;ChinaMAP的杂合子和纯合子基因型一致性率最高;TOPMed和1kGP的一致性率低于两个亚洲panel。对于不同东亚人群,SEAD在柬埔寨(东南亚人群)的表现优于TOPMed和ChinaMAP,并且与日本人群中的ChinaMAP panel具有相似的准确性。在其他东亚人群中,ChinaMAP始终显示出比SEAD panel更高的准确性。

图:东亚人群的插补性能。

由于已有研究计划的东亚人群样本量有限,研究团队使用四个panel对WBBC-chip中5679个汉族样本的数据进行了插补。结果显示,ChinaMAP在所有MAF bins中始终表现出最高的准确性,SEAD优于TOPMed和1kGP。就良好插补的位点数量而言,SEAD的位点数量随着MAF的增加而越来越接近ChinaMAP。研究还发现,SEAD和ChinaMAP panel的纯合子和杂合子的一致性率相似且较高。

此外,研究团队比较了四个panel(WBBC-seq、1kGP、SG10K、GAsP)与SEAD的性能。在七个MAF bin中,基于SEAD插补获得的良好插补变异数量始终超过meta插补,特别是对于罕见/低频变异。最后,研究团队将SEAD panel应用于WBBC-chip数据的骨矿物质密度GWAS分析,并确定了一个亚洲特有的罕见位点SNTG1,该位点在大规模的GWAS中尚没有报道。

已有的WGS研究数据集为合并成一个单一的、更全面的、更广泛的参考panel提供了独特的机会,增强了其在亚洲人群遗传研究中的实用性。SEAD panel整合了来自多个亚洲国家地区的WGS数据,是亚洲地区样本数量最多、种群多样性最丰富的亚洲人群单倍型参考panel,并在南亚人群的基因型插补中显示出显著优势,在东亚人群的基因型插补中显示出较高的准确性,尤其是在检测罕见变异方面

目前,SEAD panel可免费使用(https://imputationserver.westlake.edu.cn/),为亚洲人群的遗传研究提供更好基因型插补服务。

论文原文:
Yang, MY., Zhong, JD., Li, X. et al. SEAD reference panel with 22,134 haplotypes boosts rare variant imputation and genome-wide association analysis in Asian populations. Nat Commun 15, 10839 (2024). https://doi.org/10.1038/s41467-024-55147-4
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章