我们大多数人在没有谷歌地图或类似的导航技术时会迷路。而当这些地图绘制工具包含关于交通或天气的其他数据时,我们可以更有效地进行导航。对于那些研究基因的科学家,他们“导航”哺乳动物基因组以更好地了解疾病的遗传学因素,联系各种类型的数据集,使得寻找基因序列更加简单。
Salk生物研究所的一个团队开发了一种计算算法,它集成了两种不同的数据类型,使其确定基因组中的关键区域比其他工具更精确和准确。该方法发表在2月13日的《PNAS》上,它可以帮助研究人员进行更有针对性的广泛的搜索那些致病基因组序列,如引发癌症或代谢性疾病的基因。
“大多数个体之间的变异是在基因组的非编码区,”霍华德休斯医学研究所、Salk基因组分析实验室主任兼资深作者Joseph Ecker说。“这些区域不编码蛋白质,但它们仍然含有导致疾病的遗传变异体,我们只是一直没有非常有效的工具来定位这些在各种类型的组织和细胞中的基因区域——直到现在。
我们的DNA只有大约2%由基因组成,这些基因编码着保持我们健康和功能的蛋白质。多年来,其他98%的DNA被认为是外来的“垃圾”。但是,随着越来越复杂的探测基因组工具的开发,我们知道,大多数所谓的垃圾具有重要的调节作用。例如,称为“增强子”的DNA部分决定了基因信息在何处和何时被读出。
增强子的突变或破坏与人类疾病的关系越来越紧密,但它却难以在基因组内定位。关于它们的线索可以在某些类型的实验数据中发现,例如在调节基因活性的蛋白质的结合中,DNA缠绕蛋白质(称为组蛋白)的化学修饰,或存在于DNA中被称为甲基的化合物(称为DNA甲基化的表观遗传因子)。通常,用于发现增强子的计算方法依赖于组蛋白修饰数据。但Ecker的新系统,称为REPTILE(用于“基于组织特异性局部表观基因组标记的调节元件预测”),联系组蛋白修饰和甲基化数据以预测基因组的哪些区域含有增强子。在实验中,REPTILE被证明在寻找增强子方面比仅依赖于组蛋白修饰的算法更准确。
“这种方法的新颖之处在于它使用DNA甲基化来真正缩小由组蛋白修饰数据得到的候选基因范围,” Salk研究生、论文的第一作者Yakeng He说,“然后,我们能够在实验室中测试REPTILE的预测,并用实验数据验证它们,这使我们对算法找到增强子的能力有很高的信心。”
REPTILE算法一般有两个步骤:训练和预测。对于训练,Salk团队教会REPTILE通过将已知增强子的位置以及除DNA中增强子之外的基因组区域加入算法中来识别哺乳动物增强子。在预测步骤中,该算法在未知增强子区域的9个小鼠和5个人细胞系和组织中运行,并且精确定位潜在增强子的位置。最后,团队利用实验数据来测试由REPTILE在预测步骤中进行的预测是否对应于真实调节区域。因为增强子增加靶基因的活性,研究人员可以通过将DNA序列连接到报告基因并观察所假设的靶基因是否升高来测试DNA序列的活性。研究人员通过分子工具设计小鼠胚胎,以便增强子激活并将触发相关报告基因的表达,而这可以通过染色监测。因此,如果REPTILE预测特定的增强子与小鼠前脑发育相关,该团队能够在胚胎的前脑区域中寻找染色模式。如果他们看到了,那么REPTILE的预测就被认为是有效的。Salk团队还比较了REPTILE与四种常用增强子寻找算法。总的来说,REPTILE胜过每一个,不论是更准确的找到增强子区域或是更少的错误(错误识别)。所以说REPTILE比现存的其他系统在寻找不同类型的增强子上更成功。
“基因组中的遗传变异数量巨大,”Ecker说,“因此,在寻找致病基因方面,你会真的很想聚焦在可能的基因区域,而识别增强子是这一过程中的关键一步。”
参考文献:Improved regulatory element prediction based on tissue-specific local epigenomic signatures. PNAS, www.pnas.org/cgi/doi/10.1073/pnas.1618353114
来源:来宝资讯
本文由来源 来宝资讯,由 王迪 整理编辑!