科研

首页 - 全部文章 - 科研 - Cell Discovery | 汤富酬课题组开发基于单分子测序平台的NanoStrand-seq技术,实现基因组全局单倍型分型

Cell Discovery | 汤富酬课题组开发基于单分子测序平台的NanoStrand-seq技术,实现基因组全局单倍型分型

单倍型指的是细胞中同一条染色体上所有遗传变异事件的连锁信息,同一条染色体上的不同遗传变异通常会一起传递到子细胞中,这种连锁特征与生物体的遗传模式、等位基因特异性基因表达、药物敏感性以及肿瘤易感性等方面息息相关[1-3]。第一个端粒到端粒的人类完整参考基因组(T2T-CHM13)的成功组装,是人类参考基因组组装历史上的一个重要里程碑。即将到来的完整基因组研究时代将聚焦于完全单倍型分型(phased)的完整二倍体参考基因组上,单倍型连锁信息对于全面理解遗传多样性及其与遗传疾病的关系至关重要。
近年来,随着以PacBio技术和牛津纳米孔技术(Oxford Nanopore Technology,ONT)为代表的单分子测序技术(三代测序技术)的发展,研究人员能够常规获得长达10 Kb的测序读长,特别是ONT的Ultra-long技术能够提供N50大于100 Kb的超长读长[4]。然而,凭借单分子测序长读长的优势也只能对基因组中的遗传变异进行局部单倍型分型,几乎无法跨越着丝粒(通常在百万碱基对长度)和其它一些非常复杂的基因组区域。目前,在不依赖亲本数据的情况下,研究人员通过将单分子测序技术与其它多种测序技术相结合,以实现整条染色体水平的单倍型分型。例如,将PacBio的HiFi数据与检测基因组三维结构的Hi-C数据相结合,利用同一条染色体内的远程相互作用确定远距离杂合SNP(单核苷酸多态性)的连锁信息,该方法对长读长测序数据的准确性要求非常高,部分涉及较长结构变异(Structural Variation)的高度复杂基因组区域会出现分型错误[5];另外一种是将大量细胞的长读长测序数据与Strand-seq单细胞基因组DNA模板链连锁测序数据相结合,通过Strand-seq对单细胞的双亲DNA模板链进行保留链特异性的基因组测序,捕捉同一条染色体的同一根DNA单链上的遗传变异连锁信息,进而实现整条染色体水平的单倍型分型[6-9]。然而,由于Strand-seq技术基于二代测序平台,其读长较短(100–300 bp),且基因组覆盖度较低(3.5%),在一些复杂基因组区域无法辅助大量细胞的HiFi长读长测序数据进行单倍型分型,特别是在邻近没有杂合SNP的情况下,无法对杂合结构变异进行分型。改进的Strand-seq技术(OP-Strand-seq)虽然将基因组覆盖度提高到了13%,然而该技术依赖特殊仪器的使用,且无法解决短读长测序存在的基因组比对问题[10]。

为了应对上述挑战,北京大学生物医学前沿创新中心/昌平实验室/北大-清华生命科学联合中心汤富酬课题组在Cell Discovery上发表题为“Simultaneous de novo calling and phasing of genetic variants at chromosome-scale using NanoStrand-seq”的研究论文。该研究在国际上率先使用单分子测序平台开发了一种DNA模板链连锁测序的方法,称为NanoStrand-seq,该方法能够在整条染色体水平对SNP和结构变异进行精准从头检测和单倍型分型,具有极高的分型准确性(分别为99.98%和99.68%),而且该方法既适用于长期传代培养细胞,也适用于短期原代培养细胞,能够满足各种不同的实验需求。

在实验上,NanoStrand-seq在细胞制备的过程中使用5-溴-2-脱氧尿苷(BrdU,5′-bromo-2′-deoxyuridine)标记DNA复制过程中新合成的新生DNA单链,在细胞完成有丝分裂后再进行下一步实验操作。与Strand-seq使用MNase酶切割DNA获得DNA短片段(100-300 bp)不同,NanoStrand-seq使用低浓度Tn5转座酶对单细胞基因组DNA进行片段化,以从根本上提高DNA片段的长度和实验稳健性;将DNA片段上的Tn5酶解离后,进行间隙填充反应;接着利用紫外线照射靶向移除新生DNA单链,仅保留模板DNA单链;并巧妙地利用两轮引物延伸反应,在DNA分子两端分别加上不同的条形码序列,通过不同条形码的组合既保留了单细胞信息又保留了DNA链特异性信息;最后对DNA长片段进行PCR扩增并建库,以进行单分子测序(图1)。为了评估NanoStrand-seq技术的可靠性,研究团队将NanoStrand-seq应用于人类正常二倍体GM12878细胞系,并与基于二代测序平台的Strand-seq/OP-Strand-seq数据集进行全面比较。通过系统比较,NanoStrand-seq的平均读长达到2,794 bp,826个细胞中有364个通过了质控,通过率为44%,远高于OP-Strand-seq技术11%的通过率;另外,NanoStrand-seq数据的背景噪声(0.88%)比Strand-seq低(1.40%),单细胞基因组覆盖度(9.39%)比Strand-seq高(3.51%),GC偏好性相比于Strand-seq和OP-Strand-seq也更接近基因组的真实分布;在NanoStrand-seq数据中也能直观检测链特异性分布、姐妹染色互换事件(Sister chromatid exchange, SCE)以及基因组倒位事件(inversion),且同一个单细胞中两个亲本来源的基因组DNA读段被链特异性地成功区分开(图1)。

图1:NanoStrand-seq方法原理与性能评估

接着该研究在多个方面对NanoStrand-seq的应用进行了探索:

01NanoStrand-seq技术能够准检测基因组中的倒位事件

传统根据基因组比对断点来检测倒位事件的方式对测序深度要求高,且倒位事件断点处序列复杂,序列比对容易出错,因此具有很大的局限性。该研究针对NanoStrand-seq数据读段长、读段数量较少的特点设计了一套根据读段方向变化检测基因组倒位区域的算法,成功在GM12878细胞中识别到了339个潜在的倒位区域(多个倒位区域可能同属同一个复杂倒位事件),包括在8号染色体上的一个长为3.89Mb的纯合倒位和7号染色体上的一个长为27.43Kb的杂合倒位。虽然NanoStrand-seq在检测短倒位事件时受到读段数的限制,但是利用长读长的特性,能够通过比对断点准确识别短的倒位事件作为补充,提高倒位事件检测的召回率。检测到的倒位事件主要分布在着丝粒和端粒附近。另外,纯合倒位区域总长度达10.46Mb,杂合倒位区域总长度达9.69Mb。由于基因组中的倒位事件较为复杂,在经过人工过滤、合并和校正后,将最终的83个倒位事件与参考集中的121个倒位事件进行比较[11],有72个(87%)倒位事件与参考集中的79个(65%)倒位事件重叠(图2)。

图2:使用NanoStrand-seq检测基因组的倒位事件

02NanoStrand-seq技术能够对SNP进行整条染色体水平的精准从头检测和单倍型分型

由于单分子测序与二代测序相比准确性较低,在检测SNP时容易出错,特别是在单细胞数据中测序深度低,单条读段无法准确判断等位基因的基因型。该研究针对这一问题开发了一套容错的分析流程:首先,直接将多个单细胞的测序数据合并起来从头检测杂合SNP;然后,利用单细胞数据中的PCR重复校正单碱基测序错误,并以这些杂合SNP为锚定点将细胞聚类成两类并分别合并得到单倍型读段(以整条染色体为单位);最终根据多个细胞支持的方式确定等位基因的基因型。值得一提的是,该流程首次引入了两轮读段分型的策略,第一轮使用单细胞读段的链特异性特征提取单倍型读段,第二轮则使用第一轮的分型SNP标记单细胞读段以重新提取单倍型读段,该过程能够提高读段单倍型分型的准确性,并最终提高SNP分型的召回率和准确性。该流程输出的SNP带有分型信息,并根据鉴定出的纯合倒位事件进行了进一步校正。

与GIAB中的SNP金标集进行比较,结果表明在使用350个单细胞的测序数据的情况下,NanoStrand-seq检测SNP位置的准确性为99.85%,召回率为86.76%,进一步确定基因型(genotype)的准确率为99.67%;GIAB中89.26%(1,755,317)的杂合SNP被NanoStrand-seq成功检测到,且单倍型分型准确率为99.98%。

另外,该研究还分析了在杂合SNP的位置和基因型都已知,但分型信息未知的情况下,仅使用100个单细胞就能够分型95.35%的杂合SNP,分型准确率达99.71%,使用350个细胞时召回率可达99.33%,分型准确率为99.94%(图3)。

图3:使用NanoStrand-seq从头检测和分型SNP的流程与结果

03NanoStrand-seq技术能够对主要组织相容性复合体MHC等高度复杂基因组区域的SNP进行精准单倍型分型

长读长相对于短读长在复杂基因组区域具有更好的比对效果。该研究进一步评估了NanoStrand-seq在主要组织相容性复合体(major histocompatibility complex,MHC)区域检测和分型SNP的优势。主要组织相容性复合体区域是人类基因组中6号染色体上长约六百万(6Mb)碱基对的高度异质性区域,即使作为金标准的GIAB和1000 Genome对该基因组区域的注释也存在较大差异。通过与GIAB和1000 Genome同时进行比较,有16,731个SNP为三个数据集共有,与GIAB相比,确定基因型的准确性为99.55%,单倍型分型准确性为100%;与1000 Genome相比,确定基因型准确性为98.8%,单倍型分型准确性为98.93%

值得一提的是,NanoStrand-seq在主要组织相容性复合体区域中的HLA基因处能够检测到相比GIAB和1000 Genome更多的SNP位点,而大量细胞ONT Ultra-long数据和大量细胞PacBio HiFi数据在此处也显示与NanoStrand-seq相似的SNP密度,但缺少整条染色体水平的单倍型分型信息。通过与大量细胞PacBio HiFi数据进行比较,NanoStrand-seq有97.31%(22,314/22,932)的SNP位置与HiFi测序数据的结果一致,其中确定基因型的准确率高达99%(图4)。

图4:使用NanoStrand-seq从头检测和分型MHC中的SNP

04NanoStrand-seq技术能够对结构变异进行整条染色体水平的精准从头检测和单倍型分型

该研究将单细胞读段合并在一起,检测到了21,211个结构变异,包括插入(insertion)和缺失(deletion)。使用单倍型读段对这些结构变异进行单倍型分型,最终成功分型3,322个杂合缺失事件和2,688个杂合插入事件。为了评估结构变异检测的准确性,该研究根据HiFi数据和Ultra-long数据构建了结构变异参考集,并生成比较区域黑名单。与HiFi的结构变异比较结果显示,缺失事件的召回率和准确率分别为91.99%和83.6%,插入事件的召回率和准确率分别为86.09%和87.01%。对于NanoStrand-seq成功分型的杂合结构变异,87.61%能够被HiFi数据和GIAB验证(准确率为97.61%),有12.42%的结构变异超出了HiFi数据验证的能力,证明了NanoStrand-seq在这些结构变异的单倍型分型方面的优势。使用GIAB对HiFi的结构变异集进行分型,有3,138个杂合结构变异能够被NanoStrand-seq检测到,并且NanoStrand-seq的单倍型分型准确性为99.68%

虽然基于二代测序平台的Strand-seq也能够辅助长读长数据对结构变异进行分型,但这依赖杂合结构变异附近存在杂合SNP,统计发现有381个杂合结构变异与最近的杂合SNP的距离超过2 Kb,61个超过10 Kb。该研究通过靶向单分子测序验证了其中9个结构变异,结果均与NanoStrand-seq的分型结果一致,而HiFi数据和Ultra-long数据均无法确定这些杂合结构变异的单倍型分型信息(图5)。

图5:使用NanoStrand-seq从头检测和分型基因组的结构变异

05NanoStrand-seq技术能够指导单倍型分型基因组的从头组装
该研究使用大量细胞HiFi数据从头组装了人类基因组,产生多个叠连群(contig),并借助NanoStrand-seq数据将叠连群进行聚类和方向校正,成功将来自同一条染色体的叠连群准确聚到同一个类中,按长度统计准确率高达(99.35%),接着检测和分型这些聚类中的SNP位点,将聚类中的SNP映射回hg38参考基因组之后,评估得到分型的准确性高达99.66%。其中cluster 26对应hg38的6号染色体,98.89%的杂合SNP被分型到最大的分型集中,其中主要组织相容性复合体区域被组装成了两个叠连群,99.96%的杂合SNP被分型到了最大的分型集中。这些结果表明NanoStrand-seq能够指导单倍型分型基因组、特别是复杂基因组区域的从头组装(图6)。

图6:使用NanoStrand-seq辅助HiFi测序数据从头组装单倍型基因组

06NanoStrand-seq能够对短期培养的原代细胞进行精准单倍型分型
该研究成功将NanoStrand-seq应用在了短期原代培养的小鼠胚胎成纤维细胞和上皮细胞中,并且展现出了优异的整条染色体水平的对SNP和结构变异的从头检测和单倍型分型能力(图7)。

图7:NanoStrand-seq在小鼠原代细胞中的应用

总之,NanoStrand-seq能够在短期原代培养以及长期传代培养的细胞中在整条染色体水平对SNP和结构变异进行精准从头检测和单倍型分型,具有很高的准确性和可靠性,特别是对于复杂基因组区域单倍型分型表现优异,对于结构变异的单倍型分型不依赖于邻近的杂合SNP;在分型已知杂合SNP时具有更高的召回率;能够辅助大量细胞HiFi数据从头组装单倍型分型的基因组,在高度异质性的基因组区域也能将单倍型组装得很好。另外,NanoStrand-seq还具有分型三倍体、四倍体等多倍体基因组的潜力。

北京大学生物医学前沿创新中心、昌平实验室、北大-清华生命科学联合中心汤富酬教授为该论文的通讯作者。北京大学生物医学前沿创新中心博士后白秀珍、北京大学前沿交叉学科研究院/昌平实验室博士生陈宗贵、北京大学生命科学学院博士毕业生陈坷和前沿交叉学科研究院生命科学联合中心博士生吴子欣为该论文的并列第一作者。生命科学学院博士后刘俊娥、北京大学第三医院常亮等为该论文做出了重要贡献。该研究项目得到了国家自然科学基金基础科学中心项目、北京大学生物医学前沿创新中心、北京未来基因诊断高精尖创新中心、昌平实验室、北大-清华生命科学联合中心以及北京大学“临床医学+X青年专项”的支持。

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章