你是否想象这样一个场景:在一个雨天,尽管雨滴是随机掉落的,但随着时间的推移,路上仍然有一块地方能够始终保持干燥。不难推测,这块干燥的路面一定有某些特别之处。正如这块路面,人类的基因组中也存在一些区域,能够保持较高的稳定性。以上的比喻也很形象地描绘一种最新的基因约束区域研究方法,用于帮助识别那些不容易发生改变的基因区域。
随着人们对基因的不断探索,科学家对于基因组约束区域也有了新的认识。目前,通过识别大规模人群的编码区域,探索基因组约束区域已成为了现实。但现有的技术仅能揭示基因组整体水平的约束区域,却往往掩盖了基因内的约束区域。科学家认为,这些未揭示的约束区域DNA突变可能导致严重的儿童发育障碍等疾病。
2018年12月10日,Nature Genetics发表了一项关于基因约束图谱的最新研究成果。来自美国犹他大学的研究人员收集了超过10万名健康人的基因数据,并对近480万个基因变体进行分析,最终成功绘制了人类基因组编码区域的约束图谱。研究人员发现高约束编码区富含ClinVar致病变异和发育障碍的突变,并揭示了导致发育障碍的致病基因变异和新生突变,为识别研究疾病的新编码区域打开了一扇大门。
犹他大学人类遗传学和生物医学信息学副教授Aaron Quinlan博士表示:“与以往的研究策略不同,我们没有关注DNA突变发生的位置,而是关注那些未发生DNA变化的区域。我们新建立的这个模型可以在庞大的数据库中寻找遗传变异规则以外的例外情况,揭示无变异基因约束区域的特点。我们认为这些区域发生突变时可能导致致命或极端表型的疾病。”
虽然这种方法从概念上很容易理解,但需要大量的人类基因组才能帮助揭示新的致病基因,并帮助确定发育障碍患者的致病原因。得益于从从基因组聚集数据库(gnomAD)获得的12万多个外显子和基因组测序数据,研究团队成功创建了编码区基因约束图谱。研究人员利用该图谱分析了将近480万个基因变体后发现,在编码区平均每7个编码碱基就会出现一个突变,但在该研究关注的编码序列约束区域,这些变体并不常见。
部分高约束编码区富含致病变异
虽然人类基因组能够容忍部分变异,但基因约束区域某个关键部分的变异可能会造成严重的发育后果。该研究发现,许多编码区高度约束区域富含与发育障碍相关的基因,如KCNQ2、KCNQ5、SCN1A、SCN5A,涉及发育迟缓、癫痫和先天心脏病等疾病。这一结果表明,该方法有助于揭示基因约束区域的功能。此外,该研究小组对先前数千名神经发育障碍儿童研究报道的新错义突变进行了分析,发现人类基因组中高约束区域含有这些致病性突变的几率是正常人的7倍以上。
研究人员同时表示,该模型目前只能找到极端的表型,如智力残疾、发育障碍、癫痫、面部畸形和心脏发育问题,还不能识别糖尿病、冠状动脉疾病等常见疾病的基因区域。在评估常染色体显性疾病的新生突变时,高约束编码区域可补充现有变异排序方法。此外,该方法尚不适于隐性疾病研究。
该方法的优点在于可提供比现有的基因约束检测更高的分辨率,并通过严格识别每个基因内部高度约束区域,将假阳性降到最低。随着从人类基因组中获取越来越多的数据,该方法也可以不断提高分辨率,精确定位疾病研究区域。详细的编码区约束图谱能够帮助识别那些尚未与人类疾病症状关联的基因关键区域。这些区域的某一部分会表现出极端的限制,其中的突变会导致极端的发育障碍,甚至胚胎致死。该研究方法为确定驱动疾病表型,并对人体健康至关重要的新编码区域提供了机会。
值得关注的是,今年2月26日,人类长寿公司创始人Craig Venter在Nature Genetics在线发表了人类基因组非编码区约束图谱。该研究发现,与未受约束区域相比,非编码基因组约束区域的致病变异体高达52倍(与基因组平均水平相比为21倍)。人类基因非编码区约束图谱被认为是一个宝贵的资源,可以帮助在更大范围内重新探索基因。本次同样发表在Nature Genetics的编码区约束图谱,恰好与该研究相互补充、呼应。
如今,人类基因组的研究已取得诸多成果,但对于浩瀚的人类基因组,这只是万里征程的一部分,我们对人类基因的探索才刚刚开始。在此,我们也希望有更多更好的研究方法能够帮助我们加深对基因功能的了解,为人类疾病的发生发展提供更多信息。
参考资料:
1.Big datasets pinpoint new regions to explore the genome for disease
2.A map of constrained coding regions in the human genome
3.Developmental Disorder, Other Disease Genes Revealed by Mapping Regions Resistant to Change
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!