The Plant Cell | Greenscreen¬——一种去除ChIP-seq数据中假阳性信号的方法
2023年2月6日 0条评论
302次阅读
0人点赞
染色质免疫沉淀后测序(ChIP-seq)被广泛用于在全基因组范围内鉴定与特定染色体修饰或转录因子相结合的基因组序列。在分析ChIP-seq数据时容易受到一些伪信号的基因组区域的干扰。为了从ChIP-seq信号中屏蔽掉这些干扰信息,研究人员通过在人类、小鼠和果蝇中开展了ENCODE项目,定义了一些具有低比对和高的伪信号区域。但是在许多模式和非模式物种中,还没有在整个基因组范围注释出这样的“黑名单”。2022年9月19日,来自美国宾夕法尼亚大学的Doris Wagner 团队在Plant Cell上发表了题为“Greenscreen: A simple method to remove artifactual signals and enrich for true peaks in genomic datasets including ChIP-seq data”的论文。作者提出了一种消除ChIP-seq假阳性peaks的替代性方法,称之为Greenscreen。Greenscreen方法不仅能够达到拟南芥、人类ChIP-seq中的黑名单数据一样效果,并且能有效的去除假阳性信号、显著改善ChIP-seq下游分析结果。虽然Greenscreen是专门针对ChIP-seq数据所开发的,但是也可以识别其他组学数据的假阳性信号,例如由核酸酶所介导的peak信号实验。ChIP-seq适用于探究与特定转录因子或作染色质修饰蛋白关联的基因组序列。在结合因子与染色质交联并将基因组进行剪切后,与结合因子相结合的DNA片段将通过免疫沉淀的方式得到富集,进一步解交联得到序列进行测序(图1)。在免疫沉淀的过程中既能够得到与真正的与结合因子相结合的序列也会得到一些假阳性序列。为了更准确的分析ChIP-seq数据,通常进行对照实验,只使用input DNA进行相同的处理(对照组除了没有进行免疫共沉淀,其他步骤一致)或者是模拟的ChIP反应(通常是不添加抗原或者是使用不与抗原相结合的抗血清)用于剔除由于系统误差所鉴定到的假阳性的基因组区域。如果在不存在测序偏差的情况下,理论上第一个对照实验测得的peak应在均匀分布在整个基因组区域,而第二个对照实验则没有peak出现。然而基因组的某些假阳性区域并不能通过控制变量的方式对其进行有效去除;进而影响下游分析。这些假阳性信号以不同的水平和程度出现在处理组和对照组中。图1:ChIP-seq流程示意图(来源于网络)这些假阳性区域通常出现在未组装出的基因组区域、具有低拷贝的重复元件区域。对于特定物种来说,这些假阳性的区域在不同发育阶段或者不同组织间理论上是一样的,但是由于实验所造成的系统误差将会导致这些区域的信号强度在不同实验之间存在不同。ENCODE黑名单则是使用数百个input数据所生成的,因此在进行ChIP-seq鉴定peak时,建议先使用该名单将比对上的测序reads进行屏蔽。然而这种黑名单并不适用于大多数物种,这就需要一个更为简单的工具,使得研究人员能够在较少input数据的情况下屏蔽掉假阳性信号区域。研究人员提出了一个包含Greenscreen软件的ChIP-seq 流程,相比与其他方法其能够识别到更多的真实peaks。研究人员将Greenscreen流程与blacklist流程相比,发现blacklist流程所屏蔽的基因组长度显著高于Greenscreen;通过Bootstrap采样表明blacklist流程可能存在过渡屏蔽,使得一些真实的peaks信号被过滤掉了(图2)。图2:Greenscreen流程以及不同方法间的比较分析在评估了一些指标并证明Greenscreen能作为去除假阳性信号的有效工具后,研究人员分析了该方法对ChIP-seq不同重复间的可重复性进行了评估。通常来说,不同重复间peak 信号的相关性被用于评估重复间的相关程度的高低,但是样本间高重复的假阳性信号可能会扭曲这个指标。为了检验Greenscreen方法和其他方法的的差异,研究人员使用不同的方法计算了重复之间的皮尔逊相关系数,并计算了无监督的层次聚类分析。在未去除假阳性信号的条件下,不同重复之间的重复性低于预期只有0.56。然而在屏蔽掉假阳性信号后,可以看到重复之间如预期一样清晰的聚成一类(图3)。这说明Greenscreen和blacklisting 等方法一样能够有效的改善下游的分析以及重复间的相关性。图3:Greenscreen方法能有效的提高样本间的可重复性总的来说,假阳性信号会掩盖ChIP-seq重复间或者不同实验之间真实的相关性,影响peak信号的真实估计以及识别多因子频繁结合的基因组区域。ChIP-seq为什么会产生这些假阳性信号的具体原因仍旧是未知的,它可能是由多种原因所造成的,并且取决于参考基因组的组装质量。与大多数软件一样,greenscreen 的使用同样应该根据基因组的大小以及基因组组装的质量进行参数优化,使得在屏蔽最小基因组序列的情况下实现同源数据集的最大化重叠。文章来源:植物生物技术Pbj