个性化精准医学已成为生物医药研究的新兴主题。得益于高通量测序技术,我们可以通过探究生理状态(如疾病的发生发展)与个体分子表征之间的关联系统性地解析每个病人的病情,从而实现个性化治疗。DNA甲基化是基因表达调控的重要机制,且已被报道其会受环境因素和年龄的影响。同时DNA甲基化通常是不对称的,如等位差异甲基化区域(allelic differentially methylated regions)被认为与印记基因有关。在解析生命个体和疾病时,了解DNA甲基化在空间和时间维度上的变化至关重要。虽然Roadmap Epigenome Project已公布其对多种组织的DNA甲基化组数据的研究结果,但在时间维度上对甲基化数据的研究还非常稀缺。与此同时,我们对时间维度上DNA甲基化组数据与转录组数据的关系,及其分别与健康状态的关联性也知之甚少。有关多组学时间维度的动态变化的研究较为罕见,个体甲基化图谱在不同生理状态和健康状态的变化也处于未知状态。
2018年11月5日,斯坦福大学Michael Snyder课题组与四川大学谢丹课题组组成的合作团队在Nature Medicine杂志上发表了题为“Longitudinal Personal DNA Methylome Dynamics Associate with a Chronic Condition”的论文。该团队通过监测一个个体超过36个月的时间,在文章中首次展示了单个个体多时间的甲基化组和转录组数据,并首次揭示了甲基化组数据与慢性疾病相关;除此之外,该团队还基于超深的甲基化测序数据,首次展示了数量空前的等位特异性差异甲基化区域,并发现其可能与等位特异性基因的表达调控相关。以上工作为利用组学数据实现个体健康跟踪提供了范例。
图:取样时间概况
该研究监测一位54岁男性志愿者共1124天(监测期间共经历6次病毒感染,2次血糖浓度升高),记录了其各时间点的健康参数,并基于PBMCs获得57组RNA-seq数据,28组MethyIC-seq数据。
基于以上数据,团队成员发现由于DNA甲基化组数据来源于同一个个体,故各时间点的DNA甲基化组数据具有较高相关性,在时间维度上DNA甲基化数据的变化相对温和。同时也惊喜地发现,相较于其他时间点,血糖浓度升高阶段及其邻近时间点的DNA甲基化图谱有更高的相似性。
为研究全基因组甲基化图谱的动态变化情况,研究团队首先对邻近时间点差异甲基化区域(DMRs)进行研究,发现DMRs大多富集于转录起始位点(TSS)两侧及增强子区域;发现血糖浓度升高阶段与其前面时间点的DMRs数量最多。接下来,研究团队比较了血糖升高阶段和健康阶段的甲基化图谱。由于甲基化变化可能先于生理状态,研究团队将“血糖升高阶段”扩展为包含血糖升高前60、80、90或110天的时间段(60-day-pre, 80-day-pre, 90-day-pre, and 110-day-pre)。团队发现80-day-pre和90-day-pre有最多的DMRs数量,且两个时间段共有DMRs大量富集于TSS附近,且富集于二型糖尿病并有关term中。
图:血糖升高阶段和健康阶段的差异甲基化区域情况。各部分分别表示:不同血糖升高时间段与健康时间段的DMRs数量;80-day-pre与90-day-pre共有DMRs不同时间点的甲基化水平;80-day-pre与90-day-pre共有的2个DMR在基因组上的分布情况
为进一步解析时间维度上甲基化组数据与转录组数据与慢性血糖变化和病毒感染的关联性,研究团队选择聚焦于启动子区域的甲基化水平,首先利用滑动窗口研究甲基化组数据与转录组数据的短期变化,发现相较于甲基化组数据,转录组数据中存在更频繁的短期变化;甲基化组数据的短期变化与血糖相关功能有关,而转录组数据的短期变化与免疫相关功能有关。这些结果均说明时间维度的甲基化数据与血糖浓度升高(慢性疾病)有关,而时间维度的转录组数据受多种生理状态的影响,特别是病毒感染(急性疾病)。
基于之前的发现,研究团队提出慢性疾病有关的生理状态与时间维度的甲基化组数据变化存在“phase-delayed alignment”的情况,即像血糖升高这一类慢性疾病可能存在相关的甲基化变化先于症状变化的情况。通过识别不同血糖升高时间段(60-day-pre, 80-day-pre, 90-day-pre, and 110-day-pre)的差异甲基化基因(DMGs),研究团队发现80-day-pre和90-day-pre的位于血糖相关功能集中的DMGs占比达到峰值,从而证实之前的假设。但“phase-delayed alignment”现象未在转录组数据中发现。
图:甲基化水平变化与血糖升高相关。80-day-pre和90-day-pre的位于血糖相关功能集中的DMGs占比达到峰值
为探究与慢性/急性疾病相关的差异甲基化位点(gDMS,iDMS)的调控功能差异,研究团队将两类差异甲基化位点分别与GENCODE/ENCODE和chromHMM注释进行比较,发现gDMS更富集于启动子区域,说明其在慢性疾病中通过启动子DNA甲基化对基因表达调控的影响甚于在急性疾病中造成的相应影响。同时,发现5个gDMS与已知的与二型糖尿病相关的甲基化靶点(共149个)重合。
除此之外,研究团队还报道了两次ADV感染相关的116个差异表达基因,其中有56个基因展现出在感染期间有特别的表达水平动态变化过程,且这些基因相助富集于,免疫相关的生物功能上,特别是免疫应答的条目。
图:两次ADV感染共有的差异基因表达谱。图中方框框住的部分为56个具有动态变化模式的差异基因
最后,基于之前同系列文章(2012年发表于Cell)中的基因组数据,研究团队有条件解析该课题涉及的个体的等位差异性甲基化图谱(allele-specific methylation patterns),以探究其余印记基因之间的关系。由于所有时间点的甲基化图谱差异都相对较小,故研究团队将深度较高的26个时间点的甲基化组数据合并获得一个极高测序深度的个体甲基化测序数据(平均测序深度为374.5X),从而有机会发现数量空前的等位差异性甲基化位点(ASMs),其中2.1%的位点可以合并为11,135个等位特异性差异甲基化区域(aDMRs),这个数字约是已报道的aDMRs数量的11倍。他们还发现每条染色体上的aDMRs的数量与对应染色体基因总数高度相关,与染色体长度和SNV数量无关,这说明aDMRs可能在基因表达过程中扮演调控角色。
图:等位特异性甲基化区域情况。每条染色体上的aDMRs的数量与对应染色体基因总数高度相关,与染色体长度和SNV数量无关
通过该项研究,该项研究向我们展示了在单个个体中,虽然甲基化组变化在时间维度上较为温和,但与慢性疾病息息相关;而基因表达量的变化则相对明显,且通常出现在病毒感染期间。该项研究也同样向我们展示了DNA甲基化不止可以作为稳定的表观遗传靶标,也可能在基因表达的长期调控过程中扮演重要角色,且可以作为个体健康状态慢性变化的预测指标。除此之外,基于发现的大量aDMRs,该研究向我们展示了aDMRs存在于基因共定位的趋势,表明其可能与等位特异性基因的表达调控相关。
总而言之,该项基于个体多组学的综合性研究向我们展示了利用组学数据实现个体健康跟踪及预测的可能性。
谢丹,四川大学生物治疗国家重点实验室特聘研究员、博士生导师;四川大学华西医院精准医学研究中心执行副主任。美国伊利诺伊大学香槟分校生物工程学博士,美国斯坦福大学医学院基因组学与个性化医学中心博士后。承担国家自然科学基金重大研究计划、面上项目等多项基础科研项目。在Cell、Nature Biotechnology、Nature Medicine、Genome Research、Cell Research、PLOS Computational Biology等SCI杂志发表多篇论文。研究方向:主要涉及多组学数据以及生物信息学研究,结合近年来迅速发展的测序技术和统计以及机器学习方法,系统深入地研究了多种基因调控机制和基因组间表观遗传谱的差异,揭示基因调控导致性状差异的分子层面机理。同时,致力于开发高通量,高解析度的单细胞多组学复合测序技术;利用单细胞测序技术研究肿瘤发生、发展和耐药等分子机制;开发和转化无创液体活检诊断技术。
四川大学华西医院精准医学研究中心(Precision Medicine Center),2016年获批四川省科技厅精准医学四川省重点实验室(Precision Medicine Key laboratory of Sichuan Provence),2018年获批四川省发展和改革委员会四川省精准医学应用工程实验室。实验室下设肺癌分子表型研究室,靶向示踪研究室和高通量测序研究室,已建设高通量测序平台、生物信息分析平台、单细胞研究平台、表型基因组学平台、液体活检平台和靶向示踪平台。
谢丹团队部分成员
直播预告丨文章一作亲临解读
本周三(11月7日),本文共同第一作者夏林博士及屠凯岭博士将亲临探基学院“开讲啦,一作!”栏目,对本篇Nature Medicine力作进行深度解读!
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!