脑卒中是全世界范围内导致死亡和长期残疾的主要原因。在中国,脑卒中更是在造成死亡的病因中排名前列。已有的中小规模双胞胎研究和全基因组复杂性状分析显示,脑卒中的遗传率在16.1%~40.3%之间。因此,了解序列变异与丰富的脑卒中表型之间的关系,对于理解脑卒中发病机制和预后,以及为疾病的预防和制定新的治疗策略至关重要。
近期,来自首都医科大学附属北京天坛医院神经内科的王拥军教授团队与中山大学公共卫生学院(深圳)刘斯洋副教授团队、华大基因等合作在Cell Discovery上发表研究文章“The STROMICS genome study: deep whole-genome sequencing and analysis of 10K Chinese patients with ischemic stroke reveal complex genetic and phenotypic interplay”。研究团队首次对来自中国的10241名脑卒中患者进行深度的全基因组测序和分析,鉴定出1.3559亿个由SNV和Indel组成的高质量变异位点集,其中42%的变异为新发现变异。通过对18个脑卒中相关性状进行全基因组关联分析,研究发现了10个新的遗传表型关联,以及6个具有治疗相关性的脂质性状位点,加深了对脑卒中患者群体与个体遗传分布和临床表型之间关系的理解,为研究缺血性脑卒中结局的机制、发现新治疗靶点和推进精准医学奠定了基础。
文章发表在Cell Discovery
针对脑卒中发生发展机制,研究团队开展研究建立了1.5万人的全国缺血性脑血管病专病队列,并建立卒中多组学研究平台(STROMICS)。通过结合多组学和临床大数据的跨学科交叉融合研究,实现卒中患者精准诊疗,并开创药物研发新范式。该研究为STROMICS平台的第一期基因组学研究成果。
据介绍,STROMICS旨在从多层组学的角度描述脑卒中患者在脑卒中发作前后表型谱的潜在机制。该研究囊括了第三次中国卒中登记处(CNSR-III)招募的10241名患者,收集了每个参与者各种表型信息以及生物样本(血液和尿液)(图1)。
图1. STROMICS的构成和WGS内容主要组成部分的概述。
10241名STROMICS参与者的出生地地理分布覆盖了中国31个省级行政区。经过reads比对、突变检测及质量控制后,研究人员确定了1.3559亿个双等位基因变异位点集,包括125,769,898个Ts/Tv比率为2.06的SNV,以及长度从1bp到50bp的9,819,312个Indel。虽然1.3559亿个突变中的大多数位于非编码区(98.81%),但在编码区仍然有161万个突变(1.19%),包括534,090个同义SNV,1,001,334个错义、终止丢失和非移码突变,14123个剪接位点,60,066个功能丧失(LoF)变异。与中国和东亚人群中的所有其他四项WGS研究相比,包括中国代谢分析项目(ChinaMAP)、Nyuwa项目、基因组聚合数据库(gnomAD)、EAS项目和西湖华人生物样本库(WBBC),该研究独立贡献了6,477万个SNV和Indel,占比达20.85%。
图2. STROMICS中10241名个体的1.3559亿个遗传突变的等位基因频谱和功能注释。
研究人员使用PCA揭示了一种精细的遗传结构,该结构密切反映了患者的地理分布,报道了迄今为止我国最为完整的脑卒中人群遗传选择图谱。STROMICS I期患者主要由三个祖先成分组成,分别代表中国北方和南方血统,以及来自西北的可能源自古代欧洲基因流。研究人员确定了17个和14个位点,分别在PC1和PC2上显示出显著的等位基因频率差异,分别对应于中国地理地图上的纬度和经度梯度(图3e)。值得注意的是,在rs1801133处观察到强烈的选择信号,rs1801133是1号染色体上的亚甲基四氢叶酸还原酶基因(MTHFR)中的编码单核苷酸多态性(SNP),称为 Ala222Val或C677T或G677A。rs1801133的A等位基因的频率表明中国各地与纬度相关的梯度趋势,在北纬40度附近观察到的频率最高(图3f)。
研究人员结合了STROMICS中丰富的表型信息,对18个脑卒中相关性状(14种生化指标、2种神经影像学表型和2种行为特征)分别进行常见突变和罕见突变全基因组关联分析,发现了10个新基因位点。研究揭示G677A等位基因频率与同型半胱氨酸的增加和血清叶酸浓度的降低显著相关(图3g和3h)。
图3. 人群遗传结构和自然选择。
该STROMICS基因组研究是第一个针对缺血性脑卒中患者登记的全基因组研究。通过对CNSR-III的10241名患者队列进行深度全基因组测序和分析,研究团队共鉴定了1.3559亿个遗传变异。值得注意的是,其中5712万个变异是新的,之前未在dbSNP(Build155)中编录过,6477万个是在中国和东亚人群中进行的其他基因组项目中未检测到的SNV和Indel。
基因组研究利用疾病登记、全面的医疗记录和数字数据连接患者的基因组和疾病表型。此类研究增强了人们对人口和个体遗传图谱如何影响中间分子图谱和临床结果的理解。该研究的未来努力将涉及定义适当的表型并构建表型范围的关联图,以用于STROMICS中收集或正在收集的更多临床和多组学表型。
STROMICS网址http://www.stromics.org.cn
Cheng, S., Xu, Z., Bian, S., Chen, X., Shi, Y., Li, Y., ... & Wang, Y. (2023). The STROMICS genome study: deep whole-genome sequencing and analysis of 10K Chinese patients with ischemic stroke reveal complex genetic and phenotypic interplay. Cell Discovery, 9(1), 75.
https://www.nature.com/articles/s41421-023-00582-8
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!