科研

首页 - 全部文章 - 科研 - Genome Med | 灵敏检测所有类型de novo突变!仅HiFi长读长测序即可生成全面的WGS数据

Genome Med | 灵敏检测所有类型de novo突变!仅HiFi长读长测序即可生成全面的WGS数据

人类基因组变异的综合表征对于深入了解遗传特征和疾病非常重要。对于罕见疾病研究,识别所有变异类型的完整图谱尤其重要,包括置换、indel、短串联重复(STR)和结构变异(SV)。基因组测序准确性的一个特殊挑战是从头突变(de novo mutation,DNM)。DNM已被证明是散发性、严重性、早发性疾病的主要原因。每个人类基因组平均包含大约40~90个DNM,但它们也是最难识别的变体之一。因此,全面检测所有类型的DNM需要高质量的测序数据。虽然短读长测序可准确地检测小变异,但对大STR、CNV和SV的检测灵敏度有限。长读长测序已被广泛用于人类基因组的从头组装和短读长测序未检测到的SV,但其在单碱基对(bp)分辨率上的准确性较低,这使得它们无法可靠地检测小于50bp的变异。为在基因组分析中满足对长读长和高准确性的双重需求,PacBio公司开发了兼具长读长和高准确度的HiFi长读长测序技术,使得长读长测序也适用于检测微小变异。

荷兰马斯特里赫特大学医学中心的研究团队及合作者评估了HiFi长读长测序检测所有类型DNM的能力。近日,该团队在Genome Medicine发表了题为“Comprehensive de novo mutation discovery with HiFi long-read sequencing”的研究文章。研究团队仅通过HiFi长读长测序这一单一技术,构建了最全面的突变数据集,实现了准确的替换、indel、STR和SV检测。该技术的准确性甚至允许在所有不同变异水平上灵敏地检测DNM,并且还允许定相(phasing),有助于区分真阳性和假阳性DNM。

文章发表在Genome Medicine

与短读长测序相比,HiFi测序增加的碱基精度对于小DNM的检测尤其有利,甚至可以提高灵敏度。此外,与其他长读长测序技术,HiFi技术不存在高度不稳定化学,其数据质量比较稳定,并且HiFi测序可以达到99.9%的准确度。因此HiFi可谓基因组学研究中应对复杂挑战的一个利器。

为证明长读长测序在新突变检测中的实用性,研究团队使用高覆盖深度PacBio HiFi长读长测序(~30倍)和Illumina短读长全基因组测序(~ 50倍),对8个父母-后代三人组的基因组进行了测序。对于HiFi长读长测序,研究获得的平均reads长度为17kb。每个样本的570万reads中超过99.0%与参考基因组对齐,映射质量为46.5。

数据显示,平均而言,每个样本有380万个替换突变在两个测序平台之间共享,相当于长读长和短读长测序检测的一致性为94.0%。在HiFi长读长测序特有的替换突变检测中,大约一半突变是在短读长测序没有覆盖的区域检测到的。研究发现,HiFi长读长测序提供了大约240Mb基因组的序列覆盖,而短读长测序没有,并且在这些区域,HiFi长读长测序的孟德尔遗传错误率仅为2.1%,表明大多数变异调用是真实的。

对于indel,HiFi长读长测序平均每个样本产生100万个突变,短读长测序平均产生90万个indel。短读长测序的一致性为63.1%,HiFi长读长测序的一致性为58.0%,大约有25% indel是在短读长测序没有覆盖的区域中检测到的。此外,HiFi长读长测序独有indels的MIE比率(8.9%)低于短读长测序独有indel的MIE比率(13.0%),表明HiFi长读长测序对indels的检测能力更好。

整体而言,HiFi长读长测序的准确度可以实现在所有变体水平上灵敏地识别DNM,还可以实现定相,有助于区分真阳性和假阳性DNM(图1)。

图1. 研究概览:对八个父母-后代三人组进行了PacBio HiFi长读长测序和Illumina短读长测序。

在相同样本上进行长读长测序和短读长测序,目的是识别包括替换突变在内的所有变异类型。其中,研究人员重点评估了HiFi长读长测序全面识别小变异和SV的准确性。通过HiFi测序,经过严格的筛选标准,总共发现672个小DNM,每个儿童平均识别到84个小DNM。平均而言,这84个变体中有75个是单碱基替换,在2bp到50bp之间有4个插入和5个缺失。将HiFi长读长测序检测到的小DNM与短读长测序检测到的替换突变相比较,显示出92.0%的一致性(图2)。短读长测序发现859个小DNM,平均每个患者107个小DNM,包括95个替换、4个插入和8个缺失。短读长测序检测小DNM与HiFi长读长测序的一致性为84.5%。

为了评估HiFi长读长测序对小DNM检测的灵敏度,研究人员成功为54个小DNM的27个设计出Sanger测序的标准引物。在引物设计成功的27个DNM中,11个被确认为是真正的DNM,5个在儿童中未被确认,因此被认为是假阳性(图2)。经验证识别的小DNM质量分数平均显著高于遗传和假阳性DNM。

图2. 所有小DNM的概述。

研究团队分析了两个平台在替换突变和indel检测方面是否存在差异。能够进行验证的27个HiFi长读长测序特有小DNM包括13个替换、10个插入和4个缺失,其中插入和缺失没被确认为真正的DNM,有11个替换被确认为真正的DNM。对于HiFi长读长测序检测的插入和缺失,70和75%遗传自亲本,30%和25%是假阳性检测。对于短读长测序检测到的独有突变,9.5%的替换、0%的插入和83%的缺失为遗传,68%的替换、100%的插入和17%的缺失是假阳性检测。

对于STRs,研究团队利用串联重复序列目录,其中包含171146个高度多态性重复位点。研究人员尝试验证18个HiFi长读长测序独特的和18个短读长测序独特的高质量从头STR检测。结果显示,HiFi长读长测序和短读长测序的独特STR均没有被确认为真正的从头重复扩展。

除了替换、indel和STR外,研究人员还识别了从头SV。结果显示,HiFi长读长测序数据中识别到了24个候选从头SV,短读长测序数据中识别到了1个候选从头SV(图1D)。在短读长测序和HiFi长读长测序中都出现的1个SV为真正的从头突变,其余23个长读长测序识别的突变包含13个插入、8个缺失和2个重复(长度范围21bp-991bp),其中有2个已被证实为真正的从头SV(图3)。

图3. 仅通过长读长测序就检测到两个已确认的真正从头SV。

此外,依赖于HiFi的高质量数据,使用长读长测序可实现对DNM的分相,帮助区分真阳性和假阳性DNM,并根据遗传变异(即标记物)确定起源亲本(图4)。

图4. DNM的分相。

以上结果表明,可以通过单一技术——HiFi长读长测序生成全面的WGS数据集,从而准确识别替换、indel、STR和SV。这意味着仅通过一次全面的检测,即可对疑似遗传原因导致的罕见病患者进行真正全面检测。该技术的准确性对于严重早发性疾病的诊断意义重大。

参考来源:

1.Kucuk, E., van der Sanden, B.P.G.H., O’Gorman, L. et al. Comprehensive de novo mutation discovery with HiFi long-read sequencing. Genome Med 15, 34 (2023). https://doi.org/10.1186/s13073-023-01183-6

https://www.pacb.com/blog/ploidy-haplotypes-and-phasing/

(0)

本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!

热评文章