资讯

首页 - 全部文章 - 资讯 - GrandOmics + Sentieon丨希望组与Sentieon联手打造长读长测序数据分析新工具

GrandOmics + Sentieon丨希望组与Sentieon联手打造长读长测序数据分析新工具

近日,北京希望组与Sentieon联合宣布,双方决定在基因组数据分析的多个领域进行战略合作,持续推动包括二代和三代测序在临床诊断的产品落地。

据悉,双方合作的重点包括了以下四点:

1.联合推出基于PacBio HiFi数据的基因组重测序分析流程,变异检测范围包括了SNP,Indel和SV(结构变异);

2.面向ONT最新推出的Q20+最新试剂数据,双方将进一步联合开发全面覆盖SNV/Indel/SV的变异检测产品;

3.验证并部署基于Sentieon已经完成的MGI数据全基因组(WGS)分析流程;

4.将双方的合作纳入“希望诊断计划”,为该计划开发并搭建全方位的长、短读长结合的大数据变异分析平台。

GrandOmics长读长数据SV检测软件——GrandSV

高质量的结构变异检测,是基因组医学的基石,无论是针对罕见病、肿瘤,还是辅助生殖,各种基因组医学的应用,均急切的需要新型的工具解决复杂的基因组结构变异检测问题。

长读长测序对于大片段的结构变异检测具有天然的优势。综合长读长数据分析算法中的序列拼接和序列比对算法,希望组开发了针对于长读长测序数据(PacBio HiFi和ONT)的SV检测软件——GrandSV。和以往长读长数据SV检测软件相比,兼顾了两种特征鲜明、截然不同的长读长数据(PacBio HiFi/ONT),具有更高的准确度和灵敏度。

利用准确度在99%左右的PacBio HiFi模拟数据来评估GrandSV与同类型软件cuteSV v1.0.9,Pbsv v2.4.0,Sniffles v1.0.12在人类基因组上鉴定结构变异(SV)以及变异分型(Genotyping)的准确性和灵敏度。图1的结果显示,GrandSV在5-30X的不同深度上效果都是最好的之一。此外,模拟Super Accuracy basecalling模式下的ONT数据分析结果也同样显示出了GrandSV的不俗表现。

图片

图1. Benchmark with simulated PacBio HiFi and ONT (SUP model) data

除模拟数据外,基于HG002的PacBio HiFi和ONT真实数据,并以Genome in a Bottle Consortium (GIAB) 团队发表的34,830个高置信区间当做真实的背景数据集来评估GrandSV表现。结果依然显示GrandSV的整体效果在5-30X的不同深度上都是最优的之一。

图2. Benchmark with HG002 PacBio HiFi and ONT data

相较于其他长读长SV检测软件,GrandSV有着更高的灵敏性。图3是HG002中一个长的片段插入,由于测序reads太短,单条read无法跨过,导致其他的软件在此处只能检出断点,而GrandSV通过局部组装可以完整的组装出跨过这个SV的一致性序列。图4是HG002中两个杂合的片段插入,其他软件只能检测出一个平均长度约94bp的片段插入,而GrandSV能够准确检测出两个不同的杂合的片段插入。

图3. Only GrandSV called correctly for a 9562 bp INS

图4. Only GrandSV called correctly for a 60 bp INS and a 122 bp INS 

Sentieon三代PacBio HiFi数据SNP/Indel检测软件——DNAscope LongReads

Sentieon在二代测序中SNP/Indel变异检测流程已非常成熟,并以其检测准确性高和检测速度快而广受业内人士认可。近日,Sentieon推出了DNAscope LongReads分析流程,深度改进DNAscope流程,加入Sentieon分型(Phasing)模块,高速准确分析PacBio HiFi数据进行SNP/Indel检测。

DNAscope LongReads运算效率高,速度相比开源软件有很大的提升。其中比对模块Sentieon Minimap2与原版相比提速2倍,而变异检测模块与DeepVariant相比提速6倍,有助于用户提升交付速度,降低计算成本。

准确度方面,DNAscope LongReads流程获得了FDA挑战赛PacBio数据的两个分项冠军,SNP的F1 score达到了0.9993,Indel为0.9943。在低深度下对比10x PB HiFi,16x PB HiFi,30x Illumina的全基因组测试结果,可以发现全基因组范围内16x的HiFi数据的准确率就已经超越了30x Illumina的数据,在低复杂度的基因组区域内即使10x的HiFi数据也可以超越Illumina的准确度。

图5. SNP and Indel accuracy on HG003 WGS Data, PB HiFi vs ILMN 

长读长数据可以覆盖Illumina序列所无法覆盖的区域,例如395个位于常染色体上复杂区域的临床相关基因(CMRG)。这些基因具有重要的临床价值,然而由于所处基因组区域较为特殊,短读长序列难以比对。以SMN1基因为例,该基因是脊髓性肌萎缩症的致病基因,最常见的突变是外显子7和8的缺失。从下图可以看出,只有PB HiFi数据可以覆盖相关区域,得出变异检测结果。图片

图6. PB HiFi covers SMN1 gene region when ILMN reads fail

通过结合双方在长读长变异检测流程中的特有优势,将点突变及大片段的结构变异整合分析,推出的完整HiFi全基因组重测序分析流程,将极大地加快PacBio HiFi测序的临床应用。基于本次成功经验,在未来,双方团队还会在Oxford Nanopore的数据处理上进行合作,为业界带来更多优质的Long Reads重测序的分析流程。同时双方也会持续在其他领域包括华大测序平台应用,以及“希望诊断计划”项目中保持合作,共同加速全基因组临床产品的市场教育和推广工作。

关于希望组

希望组(Grandomics)是长读长测序大数据技术和应用的开拓者,是长读长测序服务和大数据诊断公司。多年来,一直专注与高通量测序平台上的技术开发与应用拓展。公司坚持技术创新,自主开发了Next系列三代测序组装软件,GrandVariants系列三代测序基因组变异分析系统软件,GrandPathogen病原微生物检测软件,GrandBox遗传病大数据分析系统软件等。现已缔造“二代短读长+三代长读长”遗传病精准诊断新模式,旨在进一步提高致病变异的检出率,造福更多患者,让生命充满希望!

关于Sentieon

Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率,准确度,和可靠性。公司自成立以来,多次赢得precisionFDA国际生物信息挑战赛的第一名,包括三次临床多组学联合分析AI建模大赛冠军,展现了业内顶级的研发实力。Sentieon为来自于分子诊断,药物研发,临床医疗等多个领域的合作伙伴和科研机构提供软件解决方案,共同推动基因技术的发展,实现“成就精准数据,服务精准医疗“的愿景。

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:,

热评文章