科研

首页 - 全部文章 - 科研 - 探索基因组非编码区域丨克莱格·文特尔成功构建人类基因组序列约束图谱

探索基因组非编码区域丨克莱格·文特尔成功构建人类基因组序列约束图谱

新年伊始,由人类长寿公司(Human Longevity, Inc. )创始人Craig Venter及人类长寿公司前CSO、斯克里普斯研究所Amalio Telenti领导的研究团队成功构建了人类基因组序列约束图谱,进一步揭示了非编码变异在人类疾病和表型性状中具有重要作用。研究人员表示,该图谱还将帮助人类进一步探索基因组非编码区域和遗传变异。相关研究成果于2月26日在线发表在Nature Genetics期刊,论文题为“The human noncoding genome defined by genetic diversity”。

如今,尽管人类外显子组中的变异更容易引起人们的关注,但诸多研究表明,非编码区域的变异往往也与疾病有关。了解基因组非编码区域的遗传变异已逐步成为目前人类基因组学新的挑战。在本项成果中,研究人员使用了11257个全基因组序列和16384个七聚体构建了该图谱,与传统的物种间保守序列图谱不同,该图谱可以在基因组的非编码区域中识别调控元件。

具体而言,利用最新的Hi-C实验数据,研究人员构建了一个2Mb的强大协调模式,使基因组中最受限制的调控元件能够与最重要的基因相关联。与未受限制的区域相比,非编码基因组限制区域的致病变异体高达52倍(与基因组平均水平相比为21倍),可见这种来自成千上万个人类基因序列的约束制图谱是一个宝贵的资源,可以帮助解释人类基因组中的非编码元件,确定变异的优先级,并在更大范围内重新探索基因单元。

研究人员整合了那些共享序列、结构或功能的基因标记的变异和频率,生成了大量的k-mers比对,以确定整个基因组中每个核苷酸的变异概率。此外,研究人员还指出,七聚体分析被证明是可行的,最近研究也显示七核苷酸背景可以解释81%以上的置换变异。为了捕捉七聚体中存在的大量变异,研究人员计算了每个七聚体中第四个核苷酸的变异速率与频率,发现在七聚体中这种变异差异最高可达到95倍。因此,研究人员可以利用这种差异来定义基因组中每个核苷酸变异的的期望值。

文中提到,在一个特定的七聚体或区域的观察到的变异频率可能高于或低于整个基因组水平的频率。因此,研究人员根据观察到的变异频率与预期频率的绝对差异定义了一种新的评分CDTS(context-dependent tolerance score),随后利用550个碱基对的“滑动窗口”将基因组划分成大小相等的区域,在不考虑现有注释的情况下,研究上下游核苷酸的依赖性与约束性。

基因组的k-mer结构以及受限制的人类基因组区域构成

随后,研究人员根据该评分,从最依赖于上下文的约束区域到最小约束区域对基因组区域进行了排序,并且确定了特定基因组的富集和消耗模式(patterns of enrichment and depletion)。研究人员特别指出,基因组元件的分布对于研究人群的变化是很有影响的,他们发现,CDTS可以识别人群中受限制的非编码调控区域,并指出“大部分受限制的人类非编码基因组区域与调控元件,如启动子、增强子、转录因子结合位点以及与活性染色质标记具有相关性”

CDTS和其他非编码变异指标的性能和互补

研究人员进一步推测,最受限制的调控区域可以对最重要的基因具有调控功能。当研究人员评估CDTS指标是否能够评估突变的功能性和结果时,他们发现,CDTS捕获的变异比例最高,而且只需单一的指标。此外,CDTS不需要先验知识,因此能够非常精确地捕获到其他指标未检测到的致病性变异。

如今,人类基因组的研究已取得诸多成果,但对于浩瀚的人类基因组,这只是万里征程的一部分,在这些基础上对基因的功能进行深入研究,或许才能对人类产生更加深远的影响。

参考资料:

The human noncoding genome defined by genetic diversity

Researchers Build Map of Sequence Constraints for Human Genome

(2)

本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!

热评文章