此前的大多数全基因组测序(WGS)工作都是在欧洲人群中进行的,这使欧洲人口大规模联合参考panel的发展成为可能。但在人类基因组研究中,缺乏种族多样性可能会阻碍基因组科学的发展。近年来,亚洲多个国家启动了大规模人群测序研究,以了解亚洲人群的遗传基础,例如中国、日本、韩国、新加坡、印度等。其中,中国于2017年启动了西湖华人生物库(WBBC)项目。截至目前,该项目已有4480份全基因组测序样本(WBBC-seq)和6080份全基因组基因分型样本(WBBC-chip),覆盖中国34个行政区划中的29个。
在此次发表的研究中,研究团队整合了来自SG10K(13.7×,4563个样本,3个种群)、GenomeAsia(36×,1031个样本,11个种群)、WBBC(13.9×,4480个样本,1个种群)和高覆盖率的1kGP-Asian(30×,993个东亚和南亚样本,8个种群)的WGS数据,创建了用于基因型插补的综合参考panel SEAD。
由于SEAD panel来自4个不同的数据集,研究团队通过主成分分析评估了批次效应,证实了用于构建单倍型参考panel的数据集中不存在批处理效应。最终,SEAD panel由22,134个单倍型和88,294,957个变异组成,是亚洲覆盖范围最全面的panel之一。
图1:研究设计
为了评估SEAD panel在南亚人群中的插补性能,研究团队利用UKB数据库生成了三个数据集,这些数据集由不同比例的南亚祖先组成(50-70%、70-90%和>90%)。研究发现,SEAD panel在所有祖先组成比例中始终显示出最高比例的低频位点(Rsq > 0.8和MAF < 5%),特别是在>90%组中(图2)。与1kGP、TOPMed和ChinaMAP相比,SEAD panel的南亚人群的插补准确性更高。
研究团队进一步评估了亚洲人群的插补准确性(图2)。与其他三个panel相比,SEAD panel显示杂合子和纯合子基因型的一致性率更高,在特异性和精确度方面也观察到类似的趋势。对于(次要等位基因频率)MAF < 0.05的变异,SEAD比TOPMed和ChinaMAP表现出明显的优势。
图:南亚和中亚人群的插补性能。
随后,研究团队评估了1kGP、TOPMed、ChinaMAP和SEAD panel在东亚人群中的插补精度。与ChinaMAP相比,SEAD的一致性率分布更为集中;ChinaMAP的杂合子和纯合子基因型一致性率最高;TOPMed和1kGP的一致性率低于两个亚洲panel。对于不同东亚人群,SEAD在柬埔寨(东南亚人群)的表现优于TOPMed和ChinaMAP,并且与日本人群中的ChinaMAP panel具有相似的准确性。在其他东亚人群中,ChinaMAP始终显示出比SEAD panel更高的准确性。
图:东亚人群的插补性能。
由于已有研究计划的东亚人群样本量有限,研究团队使用四个panel对WBBC-chip中5679个汉族样本的数据进行了插补。结果显示,ChinaMAP在所有MAF bins中始终表现出最高的准确性,SEAD优于TOPMed和1kGP。就良好插补的位点数量而言,SEAD的位点数量随着MAF的增加而越来越接近ChinaMAP。研究还发现,SEAD和ChinaMAP panel的纯合子和杂合子的一致性率相似且较高。
此外,研究团队比较了四个panel(WBBC-seq、1kGP、SG10K、GAsP)与SEAD的性能。在七个MAF bin中,基于SEAD插补获得的良好插补变异数量始终超过meta插补,特别是对于罕见/低频变异。最后,研究团队将SEAD panel应用于WBBC-chip数据的骨矿物质密度GWAS分析,并确定了一个亚洲特有的罕见位点SNTG1,该位点在大规模的GWAS中尚没有报道。
已有的WGS研究数据集为合并成一个单一的、更全面的、更广泛的参考panel提供了独特的机会,增强了其在亚洲人群遗传研究中的实用性。SEAD panel整合了来自多个亚洲国家地区的WGS数据,是亚洲地区样本数量最多、种群多样性最丰富的亚洲人群单倍型参考panel,并在南亚人群的基因型插补中显示出显著优势,在东亚人群的基因型插补中显示出较高的准确性,尤其是在检测罕见变异方面。
目前,SEAD panel可免费使用(https://imputationserver.westlake.edu.cn/),为亚洲人群的遗传研究提供更好基因型插补服务。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!