目前,G2P将200767998个遗传变异映射到42413个蛋白质序列和77923个结构上,并进行了全面的蛋白质特征报告(图1)。通过利用实验解决和预测的蛋白质结构,G2P门户覆盖了99%具有相应结构的人类蛋白质。
G2P具有两个模块:“基因/蛋白质查找”模块归纳了三个人类遗传变异数据库——基因组聚集数据库(gnomAD)、ClinVar和人类基因突变数据库(HGMD)的人类蛋白质变异,集合大量的人类蛋白质组资源,供用户探索转录本的遗传变异与蛋白质序列和结构的关系;“交互式映射”模块则为用户提供先进的数据分析工具和可视化工具,分析对象不限于公开可用的变异或蛋白质结构。研究人员还开发出一整套蛋白质残基注释方法,可通过评估变异对重要蛋白质特征的影响,解密变异机制。
除变异数据及蛋白质结构数据之外,G2P还纳入了蛋白质特征数据,包括氨基酸的物化性质、基于PDB和AlphaFold结构的结构特征、来自UniProtKB的序列注释、来自PhosphoSitePlus的PTM以来自变异效应(MAVE)的多重测序读数,为用户对gnomAD 、ClinVar和HGMD变异的不同结构、功能特征及分布差异提供见解。
图1.G2P的生物信息学框架
研究人员以揭示MORC2致病性变异的空间分布及其蛋白质结构-功能关系方面的效用为例,介绍了基因/蛋白质查找模块的使用方法。
用户在“variant to protein sequence”选项卡下选择转录本后(图2a),查看映射的变异和蛋白质特征。用户可通过筛选器筛选目标变异,例如在MORC2的N末端区域(残基20-470)发现了一组PLP错义变异。蛋白质特征轨迹提供了对该区域的进一步见解。相应结果可在“variant to protein structure”选项卡下的结构查看器进行3D可视化(图2b)。将ClinVar PLP错义变异(黄色,图2b)与MORC2同型二聚体(PDB 5OF9)晶体结构上的结合位点轨迹进行映射,揭示突变接近二聚体界面和结合位点(黑色;图2b)。
图2.基因/蛋白质查找模块的用例(报告MORC2变异和蛋白质特征)
研究人员使用已发表的DNA甲基转移酶3A[1]的碱基编辑(BE)扫描结果进行研究。
用户在“start with a gene/protein identifier”栏输入基因DNMT3A,选择一种结构(PDB 4U7T)并上传注释,例如34个错义变异(碱基编辑位置)、BE扫描的sgRNA评分和来自AlphaMissense的致病性预测评分,以及结构域注释(图3a)。结果部分的“Resources in the G2P portal”栏可做补充。通过选择“Base-edited position”和“domain”注释(图2a,左),用户可以精确定位每个结构域内变异的3D位置(图2a,右)。
Gene/Protein Lookup模块中用户上传和集成数据的并发映射——例如ClinVar PLP变异和三类二级结构——允许用户在已知致病性变异(图2b,上)和结构特征(图2b,下)的情况下分析其变异。最后,图2c展示了BE扫描结果在AlphaFold结构上的映射。
图3.Interactive Mapping模块示例(DNMT3A碱基编辑扫描结果映射)
基因筛查越来越多地应用于临床实践,但转化和临床遗传学的一个持续瓶颈是解码筛选出的遗传变异。大多数临床鉴定的变异仍然具有不确定的意义,并且确定治疗上可行的变异具有挑战性。将遗传变异与结构生物学联系起来,提供了一种将许多疾病的潜在原因与分子效应联系起来的方法。然而,整合基因组学、转录组学、蛋白质序列和结构之间的数据是连接变异和蛋白质结构所必需的,由于不同的数据类型和固有的复杂性,这并不是容易实现。该研究提出的G2P门户网站,克服了多组学数据整合的挑战,为人类蛋白质组建立了基因变异和蛋白质结构之间的桥梁,为帮助分析遗传变异-蛋白质结构关系及发现新的治疗机制提供了强有力的生信工具。
该研究的所有资源都可以在G2P门户网站(https://g2p.broadinstitute.org/)上获得。
原文链接:
https://www.nature.com/articles/s41592-024-02409-0
参考文献:
[1] Lue, N. Z. et al. Base editor scanning charts the DNMT3A activity landscape. Nat. Chem. Biol. 19, 176–186 (2023).
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!