阿尔兹海默症(AD)和帕金森氏症(PD)是世界范围内的常见神经退行性疾病。通过全基因组关联研究(GWAS),科学家们已经鉴定出了数千个与这两类疾病相关的单核苷酸多态性(SNP),但这些SNP大多处于基因组的非编码区域,因此难以确定其功能。
近日,来自斯坦福大学的Howard Chang和Tomas Montine团队,利用单细胞/多细胞ATAC-Seq和HiChIP数据,分析了认知健康人群大脑不同区域的染色质可及性和三维基因组构象,绘制了成年人类大脑的多组学表观遗传图谱。此外,研究团队还开发了相应的机器学习框架整合这些多组学数据,用于预测AD和PD相关的非编码区SNP功能。该研究结果发表在Nature Genetics上,文章题为“Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases”。
图1. 文章发表在Nature Genetics
利用传统的多细胞ATAC-Seq,研究团队首先描绘了来自39个神经系统健康个体的7个大脑区域的染色质可及性图谱(图2)。随后又选取其中10个样本进行单细胞ATAC-Seq分析,一共获得了70,631个细胞中的染色质可及性数据。去除批次效应后进行聚类分析,研究人员发现这些细胞可聚成24个类别,分属于8种不同的细胞类型(图3),其中包括六种主要的大脑细胞类型:兴奋性神经元(excitatory neurons), 抑制性神经元(inhibitory neurons),小胶质细胞(microglia),寡突胶质细胞( oligodendrocytes),星状胶质细胞(astrocytes)和寡突胶质细胞祖细胞(oligodendrocyte progenitor cells)。
图2. 研究中取样的7个大脑区域,图片来源:Nature Genetics
图3. 70,631个单细胞ATAC-Seq数据利用UMAP聚类的结果,图片来源:Nature Genetics
模体(Motif)分析的结果显示,不同细胞类型的染色质可及性区域都结合有特异性的驱动转录因子,例如小胶质细胞中的SPI1和神经元中的JUN/FOS。同时,研究人员对研究中的神经元细胞进行了聚类分析,鉴定出了30种不同的细胞亚类(图4)。
图4. UMAP分析鉴定出的30种神经元细胞亚类,图片来源:Nature Genetics
为了找出非编码区域SNP的靶标基因,研究人员从最初取样的7个大脑区域中选择了其中的6个,制备H3k27ac介导的HiChIP文库并进行测序,共鉴定出了833,975对染色质交互作用。同时,研究团队利用单细胞之间可及性强度大小的协同变化情况(co-accessibility),预测出了2,822,924个交互作用。通过这两种分析方式获得的交互作用只有20%的重合,表明HiChIP只能鉴定出同一类细胞共有的交互作用,无法捕获细胞间特异性的交互作用。
此外,研究团队将ATAC-Seq和HiChIP数据结合预测了非编码区域SNP的功能,并将SNP的功能按照重要程度分成几个层级(图5):
1. SNP位于多细胞或单细胞ATAC-Seq的可及性区域中(第三层次)。
2. 符合条件1的SNP,同时参与H3K27ac介导的交互作用(次重要)。
3. 符合条件1和2的SNP,同时处于转录因子结合位点中(最重要)。
对于属于最重要类别的SNP,研究人员开发了一种多组学机器学习框架(gapped k-mer supprot vector machine / gkm-svm)来预测单个SNP在等位基因不同位点的结合情况。
图5. 非编码区域SNP功能预测流程图,图片来源:Nature Genetics
研究人员认为,新开发的多组学结合的机器学习预测方法,主要解决了以下两类问题:
1. 已知一些基因与疾病相关,找出远程调控这些基因的SNP。
例如,PICALM是一个与AD相关的基因,作者发现rs1237999位于PICALM上的远程调控元件中,并处于转录因子FOS/AP1结合motif上。同时rs1237999特异性的结合在等位基因的其中一个位点上。
2. 已知一些SNP与疾病相关,找出这些SNP调控的基因。
位于ITIH1的Lead SNP处于600Kb长的LD block中,一共包含317个SNP。研究发现,其中一个SNP rs181391313位于微胶细胞特异性的调控元件中,而这个调控元件处于STAB1基因的内含子内部。STAB1基因编码一种大的跨膜受体蛋白,其功能与淋巴细胞归巢(lymphocyte homing),低密度脂蛋白内吞作用(endocytosis of ligands)相关,这两种功能都与微胶细胞参与PD吻合。同时,该SNP破坏了转录因子KLF4的结合位点,而KLF4在小胶质细胞相关基因的活化中也发挥功能。
MAPT基因编码tau蛋白,这种蛋白的过度磷酸化在胞内形成神经元纤维缠结,在AD中起着关键作用,但是目前还不清楚MAPT具体如何影响PD。研究人员在MAPT基因区域创建了haplotype特异性的三维基因组图谱,并鉴定出28个可及性发生变化的区域,其中就包括在MAPT启动子上游68Kb处H1单倍型特异性的远程调控元件,和下游330Kb处位于KANSL1启动子处的调控元件,这两个调控元件只在H1单倍型中才与MAPT启动子发生特异性的交互作用。而在H2单倍型中,染色体倒位区域的两个边界区域发生特异性的交互。
图6. MAPT基因启动子与远程调控元件的H1单倍型特异性的远程交互作用,图片来源:Nature Genetics
综上所述,该研究通过结合ATAC-Seq和HiChIP数据,发现了更多与AD和PD相关的 基因,并通过整合多组学数据开发机器学习分类预测非编码区域SNP的功能,有助于理解非编码区域的改变对AD和PD的影响。从更广泛的意义上来讲,该工作提出了一种了解疾病遗传变异的系统方法,同时,由于基因组上非编码区域的调控机制十分复杂,因此这项工作也为筛选新的治疗靶标提供了途径。
参考资料:
1. Corces, M.R., Shcherbina, A., Kundu, S. et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases. Nat Genet 52, 1158–1168 (2020). https://doi.org/10.1038/s41588-020-00721-x
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!