通过分析从母体血浆中分离到的无细胞DNA(cfDNA)分子,可以获得遗传(例如SNP)和表观遗传信息(例如CpG)。虽然生物样本中大多数cfDNA分子的长度通常小于200 bp,但一个SNP或CpG位点通常与其最近的SNP或CpG位点间距数百或数千个碱基对。因此,在较短的cfDNA分子上找到两个或多个连续的SNP或cpG位点的可能性很小。
目前,cfDNA研究领域大多数集中在短cfDNA分子(如≤500 bp)上。长cfDNA分子的生物学特性仍未被探索。在长度大于500bp的cfDNA分子中可能包含多个SNP和CpG位点,能够比短cfDNA分子更有效和广泛地解码嵌入其携带的遗传和表观遗传信息。但使用大规模并行短读长测序技术检测长cfDNA片段存在许多挑战。此前,香港中文大学卢煜明教授团队利用SMRT测序实现了全基因组范围5-甲基胞嘧啶检测方法:整体动力学( holistic kinetic ,HK)模型。该方法可以直接应用于天然DNA,不需要任何化学或酶转化DNA或需要PCR扩增前测序。
近日,卢煜明教授团队证明了单分子实时测序可用于检测分析母体血浆中来自胎儿和母体的大量非典型长cfDNA分子,其中最长的胎儿cfDNA为23,635bp,长cfDNA显示A或G5‘片段末端占优势。研究团队利用这些长cfDNA分子上CpG位点丰度,开发了基于单分子甲基化分析推断cfDNA组织来源的方法,并介绍了如何利用该方法实现单基因疾病的无创产前检测。此外,研究发现,在子痫前期妊娠的母体血浆cfDNA中,长cfDNA分子数量减少且末端基序谱不同,因此长cfDNA或可作为妊娠相关疾病生物标志物开发的宝贵资源。12月14日,相关研究成果发表在PNAS上,文章题为“Single-molecule sequencing reveals a large population of long cell-free DNA molecules in maternal plasma”。
图1.研究设计概述。
卢煜明教授表示,目前的研究数据只是概念的第一步证明,仍需在更多样本中进一步验证,尤其是在单基因疾病的产前检查中,其团队计划开展相关研究。
近年来,虽然NIPT已经被广泛使用,但在很大程度上仍然局限于只适用染色体疾病的广泛检测,以及对已知单基因携带者家庭的疾病特异性检测。随着cfDNA检测技术的进步,诊断胎儿新生致病性突变成为研究热点。“但高成本一直是相关方法广泛使用的一大障碍。”卢煜明教授表示,“我们一直在寻找更具可扩展性的方法,希望随着时间的推移,母体血浆中的长cfDNA分子可以提供实现这一目标的新方法。”此外,进一步扩大常染色体隐性遗传病无创产前检测的使用仍有未满足的需求,也希望长cfDNA测序可以帮助解决这个问题。
研究团队利用不同测序平台分析了母体血浆cfDNA的大小分布。通过PacBio SMRT测序对妊娠晚期孕妇血浆DNA进行分析,发现大于200bp、500bp、1kb和3kb的cfDNA分子分别占53.7%、35.8%、22.0%和3.8%,最长的为31,295bp(图2A)。利用短读长测序平台对同一份血浆DNA样本进行分析。在8200万对末端reads中,16.9%和1.1%的序列分子大于200 bp和500 bp,但没有一个大于1kb。经对比发现,SMRT测序发现长cfDNA的比例是短读长测序(Illumina HiSeq)的1000倍。
图2.不同测序平台母体血浆DNA分子的大小分布。
利用其此前开发的HK模型,研究团队基于SMRT测序改进了DNA胞嘧啶甲基化的检测。通过对28名孕妇的血液样本进行了分析,在妊娠早期、中期和晚期血液样本中分别发现了800万、1810万和1620万个cfDNA。其中,超过500bp的cfDNA在母体血浆中普遍存在,根据孕期的不同,比例分别为:早期15.5%、中期19.8%、晚期32.3%。cfDNA在1kb以上比例分别为:早期10.9%、中期12.9%、晚期22.0%。
研究人员利用SNP基因分型鉴定了胎儿和母体血浆cfDNA,将三个孕期胎儿和母体特异性等位基因测序的cfDNA集合在一起,分别获得48,663和623,561个cfDNA,绘制了胎儿和母体cfDNA片段大小分布图。与母体cfDNA相比,胎儿cfDNA的亚核小分子比例增加,大小在500bp以上的长cfDNA所占比例降低。在早、中和晚孕期阶段,500bp以上的长cfDNA分别占胎儿特异等位基因的20.3%、21.4%和32.2%,含有大于500bp的母体特异性等位基因的长血浆DNA分子的比例分别为59.6%、64.5%和77.9%。携带胎儿特异性等位基因的最长cfDNA为23,635bp。(图3D)
图3.不同孕期cfDNA片段大小分布。
此外,cfDNA片段末端分析表明长、短cfDNA分子具有不同的断裂特性。500bp以下的片段,不同孕期不同大小的cfDNA片段末端的相对丰度一般为:C端>G端>T端>A端。对于较长的片段,例如在800bp以上,C端片段不再是最丰富的片段类型。G端片段在1kb左右处丰度超过C端片段,A端片段在1.5kb左右处丰度比C端片段更丰富。
图4.母体血浆DNA分子的大小和片段末端分析。
研究人员认为,能够在单分子水平上分析血浆中的长cfDNA分子的一个优点是可以利用更广泛的CpG位点来获得更多的遗传和表观遗传信息。利用这一优势,研究团队开发了一种方法,可分析长cfDNA分子上CpG位点的甲基化模式,确定其组织来源。进一步利用89个胎儿特异性和3804个母体特异性DNA分子进行了基于SNP的分析(这些分子满足了CpG位点的最低要求数量≧5个),以评估新的方法。组织来源分析结果表明,该方法在区分胎儿和母体cfDNA分子方面具有相对较高的准确性(AUC为0.88),并能够确定胎儿基因组中的母体遗传和重组事件。
图5.cfDNA的组织来源分析。
在证明基于单分子甲基化模式区分胎儿cfDNA与母体cfDNA的可行性后,研究团队通过对孕妇血浆中长cfDNA的分析,绘制了单基因病NIPT原理的示意图(图6)。首先确定亲本单倍型,然后利用单分子测序分析母体长cfDNA片段,从每个片段中获得遗传和表观遗传信息。该研究中没有父亲的单倍型信息,研究团队则通过对两种母系单倍型之间不平衡的定量分析来确定母系遗传。研究人员认为,利用双亲信息,开发一种更简单的定性方法将成为可能。
图6.通过分析母体血浆中长cfDNA片段对单基因疾病进行无创性产前检测的原理。
此外,研究人员还探讨了通过长cfDNA诊断妊娠并发症的可能性,证明血浆cfDNA片段大小和末端基序分析是区分子痫前期和无先兆子痫孕妇的潜在途径。
目前,该研究工作证明了大量此前未被探索的cfDNA的存在,将为克服相关技术挑战提供动力。由于试验采用了小样本量,意味着仍需进一步的验证来证实。此外,该研究的局限性在于组织来源分析没有达到100%的准确性,但或能通过基于磁珠或其他长DNA分子富集技术进行改进,因为更长的DNA分子可能携带的CpG位点越多。同时,PacBio的SMRT测序通量相对较低,使其临床实施面临成本挑战。
虽然开发了HKSMRT测序方法,但卢煜明教授表示,只要所使用的技术“有利于保存和分析这些分子”,挖掘这些长cfDNA分子的方法可能并不那么重要。同时,研究团队并没有将目光局限在cfDNA长度上,此前已经发表了关于片段锯齿末端的发现和环状游离DNA或可识别胎儿的起源。
卢煜明教授认为,各种基于cfDNA的生物标记物,包括片段化模式、长cfDNA片段和其他因素,携带的附加信息,使我们能够更好地了解生理或病理状态。长cfDNA片段或能用于开发诊断胎儿单基因疾病和孕产妇妊娠并发症新方法,为母体血浆中长cfDNA分析提供潜在的临床应用。
1.Stephanie C. Y. Yu, Peiyong Jiang, Wenlei Peng, et al. Single-molecule sequencing reveals a large population of long cell-free DNA molecules in maternal plasma, PNAS. December 14, 2021. https://doi.org/10.1073/pnas.2114937118
2.Long Cell-Free DNA Molecules Could Provide New Target for Noninvasive Prenatal Testing
https://www.genomeweb.com/sequencing/long-cell-free-dna-molecules-could-provide-new-target-noninvasive-prenatal-testing
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!