为了应对上述挑战,北京大学生物医学前沿创新中心/昌平实验室/北大-清华生命科学联合中心汤富酬课题组在Cell Discovery上发表题为“Simultaneous de novo calling and phasing of genetic variants at chromosome-scale using NanoStrand-seq”的研究论文。该研究在国际上率先使用单分子测序平台开发了一种DNA模板链连锁测序的方法,称为NanoStrand-seq,该方法能够在整条染色体水平对SNP和结构变异进行精准从头检测和单倍型分型,具有极高的分型准确性(分别为99.98%和99.68%),而且该方法既适用于长期传代培养细胞,也适用于短期原代培养细胞,能够满足各种不同的实验需求。
图1:NanoStrand-seq方法原理与性能评估
接着该研究在多个方面对NanoStrand-seq的应用进行了探索:
传统根据基因组比对断点来检测倒位事件的方式对测序深度要求高,且倒位事件断点处序列复杂,序列比对容易出错,因此具有很大的局限性。该研究针对NanoStrand-seq数据读段长、读段数量较少的特点设计了一套根据读段方向变化检测基因组倒位区域的算法,成功在GM12878细胞中识别到了339个潜在的倒位区域(多个倒位区域可能同属同一个复杂倒位事件),包括在8号染色体上的一个长为3.89Mb的纯合倒位和7号染色体上的一个长为27.43Kb的杂合倒位。虽然NanoStrand-seq在检测短倒位事件时受到读段数的限制,但是利用长读长的特性,能够通过比对断点准确识别短的倒位事件作为补充,提高倒位事件检测的召回率。检测到的倒位事件主要分布在着丝粒和端粒附近。另外,纯合倒位区域总长度达10.46Mb,杂合倒位区域总长度达9.69Mb。由于基因组中的倒位事件较为复杂,在经过人工过滤、合并和校正后,将最终的83个倒位事件与参考集中的121个倒位事件进行比较[11],有72个(87%)倒位事件与参考集中的79个(65%)倒位事件重叠(图2)。
由于单分子测序与二代测序相比准确性较低,在检测SNP时容易出错,特别是在单细胞数据中测序深度低,单条读段无法准确判断等位基因的基因型。该研究针对这一问题开发了一套容错的分析流程:首先,直接将多个单细胞的测序数据合并起来从头检测杂合SNP;然后,利用单细胞数据中的PCR重复校正单碱基测序错误,并以这些杂合SNP为锚定点将细胞聚类成两类并分别合并得到单倍型读段(以整条染色体为单位);最终根据多个细胞支持的方式确定等位基因的基因型。值得一提的是,该流程首次引入了两轮读段分型的策略,第一轮使用单细胞读段的链特异性特征提取单倍型读段,第二轮则使用第一轮的分型SNP标记单细胞读段以重新提取单倍型读段,该过程能够提高读段单倍型分型的准确性,并最终提高SNP分型的召回率和准确性。该流程输出的SNP带有分型信息,并根据鉴定出的纯合倒位事件进行了进一步校正。
与GIAB中的SNP金标集进行比较,结果表明在使用350个单细胞的测序数据的情况下,NanoStrand-seq检测SNP位置的准确性为99.85%,召回率为86.76%,进一步确定基因型(genotype)的准确率为99.67%;GIAB中89.26%(1,755,317)的杂合SNP被NanoStrand-seq成功检测到,且单倍型分型准确率为99.98%。
另外,该研究还分析了在杂合SNP的位置和基因型都已知,但分型信息未知的情况下,仅使用100个单细胞就能够分型95.35%的杂合SNP,分型准确率达99.71%,使用350个细胞时召回率可达99.33%,分型准确率为99.94%(图3)。
长读长相对于短读长在复杂基因组区域具有更好的比对效果。该研究进一步评估了NanoStrand-seq在主要组织相容性复合体(major histocompatibility complex,MHC)区域检测和分型SNP的优势。主要组织相容性复合体区域是人类基因组中6号染色体上长约六百万(6Mb)碱基对的高度异质性区域,即使作为金标准的GIAB和1000 Genome对该基因组区域的注释也存在较大差异。通过与GIAB和1000 Genome同时进行比较,有16,731个SNP为三个数据集共有,与GIAB相比,确定基因型的准确性为99.55%,单倍型分型准确性为100%;与1000 Genome相比,确定基因型准确性为98.8%,单倍型分型准确性为98.93%。
图4:使用NanoStrand-seq从头检测和分型MHC中的SNP
该研究将单细胞读段合并在一起,检测到了21,211个结构变异,包括插入(insertion)和缺失(deletion)。使用单倍型读段对这些结构变异进行单倍型分型,最终成功分型3,322个杂合缺失事件和2,688个杂合插入事件。为了评估结构变异检测的准确性,该研究根据HiFi数据和Ultra-long数据构建了结构变异参考集,并生成比较区域黑名单。与HiFi的结构变异比较结果显示,缺失事件的召回率和准确率分别为91.99%和83.6%,插入事件的召回率和准确率分别为86.09%和87.01%。对于NanoStrand-seq成功分型的杂合结构变异,87.61%能够被HiFi数据和GIAB验证(准确率为97.61%),有12.42%的结构变异超出了HiFi数据验证的能力,证明了NanoStrand-seq在这些结构变异的单倍型分型方面的优势。使用GIAB对HiFi的结构变异集进行分型,有3,138个杂合结构变异能够被NanoStrand-seq检测到,并且NanoStrand-seq的单倍型分型准确性为99.68%。
虽然基于二代测序平台的Strand-seq也能够辅助长读长数据对结构变异进行分型,但这依赖杂合结构变异附近存在杂合SNP,统计发现有381个杂合结构变异与最近的杂合SNP的距离超过2 Kb,61个超过10 Kb。该研究通过靶向单分子测序验证了其中9个结构变异,结果均与NanoStrand-seq的分型结果一致,而HiFi数据和Ultra-long数据均无法确定这些杂合结构变异的单倍型分型信息(图5)。
图5:使用NanoStrand-seq从头检测和分型基因组的结构变异
图6:使用NanoStrand-seq辅助HiFi测序数据从头组装单倍型基因组
图7:NanoStrand-seq在小鼠原代细胞中的应用
总之,NanoStrand-seq能够在短期原代培养以及长期传代培养的细胞中在整条染色体水平对SNP和结构变异进行精准从头检测和单倍型分型,具有很高的准确性和可靠性,特别是对于复杂基因组区域单倍型分型表现优异,对于结构变异的单倍型分型不依赖于邻近的杂合SNP;在分型已知杂合SNP时具有更高的召回率;能够辅助大量细胞HiFi数据从头组装单倍型分型的基因组,在高度异质性的基因组区域也能将单倍型组装得很好。另外,NanoStrand-seq还具有分型三倍体、四倍体等多倍体基因组的潜力。
北京大学生物医学前沿创新中心、昌平实验室、北大-清华生命科学联合中心汤富酬教授为该论文的通讯作者。北京大学生物医学前沿创新中心博士后白秀珍、北京大学前沿交叉学科研究院/昌平实验室博士生陈宗贵、北京大学生命科学学院博士毕业生陈坷璇和前沿交叉学科研究院生命科学联合中心博士生吴子欣为该论文的并列第一作者。生命科学学院博士后刘俊娥、北京大学第三医院常亮等为该论文做出了重要贡献。该研究项目得到了国家自然科学基金基础科学中心项目、北京大学生物医学前沿创新中心、北京未来基因诊断高精尖创新中心、昌平实验室、北大-清华生命科学联合中心以及北京大学“临床医学+X青年专项”的支持。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!