染色质免疫沉淀高通量测序(ChIP-seq)是分析染色质结合蛋白的一项重要技术。可检测转座酶可及的染色质开放性测序技术(ATAC-seq)已被广泛用于多个染色质研究相关领域。作为研究ChIP/ATAC-seq数据中的一项常见分析任务,识别样本间ChIP/ATAC-seq信号强度发生显著变化的基因组区域对于理解协调基因表达变化的表观遗传机制至关重要。此外,在不同癌症患者间的ChIP/ATAC-seq高变基因信号可能是不同癌症亚型/阶段的潜在表观遗传标志物,这些标志物可作为治疗靶点并可能有助于患者的预后。但目前尚且没有完整的针对ChIP/ATAC-seq高变基因信号分析而开发的分析工具。
近日,中国科学院上海营养与健康研究所邵振、涂世奇课题组在Genome Biology上发表了题为“HyperChIP: identification of hypervariable signals across ChIP-seq or ATAC-seq samples”的研究文章。该文章提出了一种针对ChIP/ATAC-seq数据中高变基因信号分析的统计学模型HyperChIP。该模型可以对多个ChIP/ATAC-seq样本间信号强度差异进行统计建模,识别出高变基因信号的基因组区域(hypervariable regions,HVRs)。在诠释HVR的生物学意义和剖析样本间的相似性结构后,研究团队利用该方法识别出癌症亚型或调控进程、胚胎发育阶段和不同人种群的遗传背景等信息。
文章发表在Genome Biology
HyperChIP使用拟合的ChIP/ATAC-seq信号强度均值-方差关系对每个位点的检测信号方差进行标度,同时利用基因的表达量数据进行参考。结果显示,该方法的样本间异质性分析能力优于常见的经验指标(图1a),并提升了HyperChIP对HVGs的识别效果(图1b)。
图1. HyperChIP的建立与参数优化。来源:Genome Biology
为验证HyperChIP的实用性,研究人员利用来自TCGA的泛癌ATAC-seq数据集,包含23种癌症类型410名患者的肿瘤组织样本。通过HyperChIP分析该数据集,鉴定了5823个近端HVR和2393个远端HVR。t分布随机邻域嵌入(t-SNE)分析显示,大多数癌症类型能在t-SNE分离开来(图2a),包括12例食管鳞状细胞癌(ESSC)和6例食管腺癌(ESAD)。表明HyperChIP鉴定的HVR有助于揭示癌症类型的亚结构。
部分组织来源或细胞形态相近而聚在一起的癌症样本,被研究人员归为四种超癌症类型(肾癌、脑癌、鳞状细胞癌和消化腺癌),并从转录调节因子入手,进行了重点分析。研究人员从JASPAR数据库中获得了432个不同人类转录因子以及521个转录因子结合基序,定量推断了每个ATAC-seq样本中转录因子的活性,发现了大量在特定超癌症类型样本中共有的转录调控因子(图2b)。以上结果表明,HyperChIP鉴定的HVR有助于识别与样本间异质性有关的调控因子。
图2. HyperChIP鉴定癌症亚类型和相关的调控因子。来源:Genome Biology
染色质状态的差异不仅在癌症患者中存在。研究人员进一步探索了 ChIP/ATAC-seq分析在正常人的数据集中的可用性。通过研究来自不同种族个体的淋巴母细胞系(LCL)样本,总共确定了364个近端HVR和498个远端HVR。CTCF ChIP-seq样本主成分分析(PCA)发现,只有在使用HVR的情况下,LCL才能很好地按其来源种群聚集(图3)。
图3. HyperChIP通过LCL分析鉴定不同人种。来源:Genome Biology
最后,研究人员利用小鼠ATAC-seq数据集开展了胚胎发育过程中HyperChIP的效用研究,分析了不同发育阶段植入前胚胎的染色质可及性。利用HyperChIP确定了303个近端HVR和383个远端HVR。以这些 HVR为特征的PCA结果显示,这些区域的大部分ATAC-seq信号变异性是由第一主成分(71.6%)引起的,与发育进程有很强的关联。进一步分析结果表明,将HyperChIP应用于发育研究样本有助于揭示与生物过程中有关的调节因子。
图4. HyperChIP在发育实验中揭示相关调控因子。来源:Genome Biology
该最新研究结果表明,HyperChIP作为一种完整的统计工具可用于识别ChIP/ATAC-seq样本上的HVR。案例研究表明,HyperChIP识别的HVR不仅为揭示相关样本之间的相似性结构提供了数据基础,而且在与基序扫描程序相结合时,还有助于识别与相似性结构相关的调节因子。
参考文献:
Chen, H., Tu, S., Yuan, C., Tian, F., Zhang, Y., Sun, Y., & Shao, Z. (2022). HyperChIP: identification of hypervariable signals across ChIP-seq or ATAC-seq samples. Genome Biology, 23(1), 1-31.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!