单细胞全基因组测序 (Single-cell whole-genome sequencing,scWGS) 已成为揭示生物样本中细胞间异质性、识别基因组变化 (如拷贝数变异、点突变) 的有力工具。该技术在研究细胞谱系分化,特别是肿瘤发生过程中细胞的演化以及复杂生物学样本中细胞异质性等层面具有独特的优势。近年来,国内外发展了多种单细胞基因组扩增技术,如DOP-PCR、多重位移扩增(MDA)、多重退火和环基扩增循环(MALBAC)、转座子插入介导的线性扩增(LIANTI)等。目前的scWGS方法都是基于新一代测序平台,具有高通量和高度准确的优势,非常适合拷贝数变异(CNVs) 和单核苷酸变异 (SNVs) 的检测,但由于这些方法产生的都是相对较短的reads (几百个碱基对),使其很难应用到基因组结构变异(SVs)层面。
SV在肿瘤发生和转移中发挥着重要作用,但目前还没有有效的scWGS方法可系统地识别它们,大大限制了相关研究的进行。近期,PacBio平台的HiFi模式实现了高准确度的长读长测序,使得直接绘制SVs断点上的reads变得更加容易和可靠。此外,单分子实时DNA测序(single-molecule real-time , SMRT)通常需要微克量的DNA作为输入,这也给单细胞测序带来了很大的挑战。
为了解决上述难题,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)汤富酬课题组在Genome Biology期刊发表了题为“SMOOTH-seq: single-cell genome sequencing of human cells on a thirdgeneration sequencing platform”的文章,报道了一种基于第三代测序平台的单细胞基因组测序方法,并命名为SMOOTH-seq (single-molecule real-time sequencing of long fragments amplified through transposon insertion)。该方法利用长保真度reads的优势实现了对SV的精确检测。
文章发表在Genome Biology
主要研究内容
目前,转座酶Tn5已被广泛用于新一代测序文库构建。与之前的设计不同,研究团队将商业化的Tn5转座酶嵌入一个adapter序列,而不是两个不同的adapter序列,这样就可以通过转位-PCR恢复所有的原始DNA片段。此外,研究团队还对反应条件进行了优化,包括接头连接转置、转置缓冲液的浓度和DNA聚合酶有效捕获和扩增人类个体细胞中的长片段等。这些扩增的长片段则适用于第三代测序平台的直接测序。
图1. SMOOTH-seq流程示意图,图片来源:Genome Biology
利用SMOOTH-seq,研究团队对单细胞基因组中的SVs进行了检测和识别。基因组中的SV通常可以分为缺失、插入、易位、复制和倒置。研究人员利用单个K562细胞的两个克隆进行实验,对两个K562克隆进行常规的长读长基因组测序,并将其作为评估SMOOTH-seq检测SV的金标准。
结果表明,两个克隆中,单细胞的SV检测精度均较高 (平均为76.9%、75.2%)。对于所有类型的SVs,插入是单细胞中突变类型检测准确度最高的 (平均84%),缺失紧随其后。在SMOOTH-seq单细胞数据中,发现了用短读测序技术很难识别的重复序列。与预期的一样,SV检测的精确度 (主要是缺失和插入) 会随着两个克隆中支持细胞数量的增加而增加,特别是从单细胞支持到双细胞支持。因此,在后续的分析中,该研究选择了至少有两个单细胞基因组数据支持的SV事件。
此外,研究团队还比较了这两个克隆之间的相似性。分析结果显示,两个克隆对不同SV类型的长度分布几乎相同,进一步比较发现,这两个克隆之间的SVs共有率超过80%,表明它们之间的基因组状态高度相似。
图2. SMOOTH-seq检测SVs,图片来源:Genome Biology
近年来,科学家们在人类细胞中发现了Extra-chromosomal circular DNAs(ecDNAs),并发现其在癌症发生发展中发挥重要作用。尤其是长链ecDNAs,有几百到几千个碱基大小,可在细胞中高度扩增,并驱动大量致癌基因的过表达。因此,这些基因组结构的异常变化可能在肿瘤发生和转移中发挥重要作用,但目前还没有有效的scWGS方法能够系统识别。为了研究SMOOTH-seq对细胞内ecDNAs的检测能力,研究团队建立了检测K562细胞内ecDNAs的流程。SMOOTH-seq可对不到10kb的长ecDNAs进行长读长测序。当Tn5转座酶的一个拷贝与一个ecDNA分子结合时,整个环状DNA分子可以被扩增成一个覆盖其全长序列的线性片段。
此外,研究团队在K562细胞中获得了相当丰富的线粒体DNA reads,最长的reads为16550bp,几乎达到了全长,说明SMOOTH-seq具有很高的敏感性。基于该流程,研究人员从至少两个K562细胞中鉴定了125个候选ecDNAs。这些ecDNAs长度主要分布在5kb ~ 1Mb,其中29.6%包含基因,这些基因主要富集在免疫过程和细胞分裂信号通路上。其中,90%的候选ecDNA (18 / 20) 可通过PCR和Sanger测序进行验证。综上所述,SMOOTH-seq可以准确检测单个细胞的ecDNAs。
图3. SMOOTH-seq检测K562基因组中的ecDNA,图片来源:Genome Biology
研究团队收集了一名结直肠癌患者的单个肿瘤细胞,并对96个细胞进行了SMOOTH-seq检测,进一步检验了SMOOTH-seq在体内细胞中检测SVs的能力。通过至少2个结直肠癌细胞支持作为SVs的评判标准,共确定了4089个插入事件,3852个删除事件,341个易位事件和312个重复事件。分析结果表明,95.1%的插入事件发生在1kb以内,97.5%的删除事件发生在5kb以内。通过去除与K562细胞中鉴定的SV重叠的突变,共鉴定出3570个结肠癌细胞特异性SV突变事件(1376个插入,1661个缺失,230个易位,303个重复),并对其中的几个进行了PCR验证。
图4. 利用SMOOTH-seq检测结肠癌细胞的SVs,图片来源:Genome Biology
结 语
综上所述,研究团队团队提出了一种基于第三代测序平台的单细胞基因组分析新方法SMOOTH-seq,该方法利用长保真度reads的优势实现了对SV的精确检测。不过,作者在文章中还提到,由于目前SMRT测序与二代测序技术相比价格高昂,因此要像二代测序那样通过SMOOTH-seq对细胞进行足够深度的测序是不现实的。但无论怎样,SMOOTH-seq仍然是scWGS技术的一个突破,在单细胞基因组学领域具有广阔的应用前景。
参考文献:
1. Fan et al. Genome Biology (2021) 22:195. https://doi.org/10.1186/s13059-021-02406-y
2. Negrini S et al. Genomic instability--an evolving hallmark of cancer. Nat Rev Mol Cell Biol. 2010;11(3):220–8.https://doi.org/10.1038/nrm2858.
3. Elowitz MB et al. Stochastic gene expression in a single cell. Science. 2002;297(5584):1183–6. https://doi.org/10.1126/science.1070919.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!