如何研究“暗物质”——增强子?(一)

绝大多数真核生物由许多不同的细胞类型组成。在一个生物体中,不同的细胞类型可以从同一组染色体中产生。同时,生物体的所有细胞都能够对非生物和生物胁迫做出响应,如光、温度、化学物质和病原体等。基因表达的时间和空间调控对于成功产生高度特化的细胞类型及其对外部信号的响应至关重要(Motte et al., 2019)(图1)。

《如何研究“暗物质”——增强子?(一)》

图1 真核生物由许多不同的细胞类型组成,生物体的所有细胞都能够对非生物或生物胁迫做出响应,如光、温度、化学物质或病原体等(Motte et al., 2019)。(a)组成植物根系的不同细胞;(b)正在生长的植物根系的不同细胞通过调控基因表达对非生物和生物胁迫做出反应;(c)受到定向刺激的根部。

转录调控是基因表达的第一步和关键的调控步骤,也是最早受到关注和研究的最为透彻的分支。超过半个世纪的知识积累构建了一个由顺式调控元件(Cis-regulatory element)和反式作用因子(Trans-acting factor)两大要素相互作用形成的转录调控框架,真核生物mRNA的转录起始就是其中非常经典的模型(Lee et al., 2013;Andersson et al., 2020)(图2)。顺式调控元件主要包括启动子、增强子和沉默子等非编码DNA序列;而反式作用因子则包含RNA聚合酶、转录因子、染色质重塑因子(Chromatin remodeler)、甚至是一些RNA结合蛋白(RNA binding protein,RBP)等(Xiao et al., 2019)。顺式调控元件所蕴含的内在序列特征往往直接决定了反式作用因子的结合与作用模式,而反式作用因子在不同生物场景下的差异性行为也能够反过来影响顺式调控元件的激活。今天伯小远将要为大家介绍的内容就是顺式调控元件中的增强子(Zeitlinger et al., 2020)。

《如何研究“暗物质”——增强子?(一)》

图2 真核生物mRNA的转录起始复合体示意图(来源于维基百科)。

01 增强子——基因组中的“暗物质”

增强子是基因组中的非编码序列,其会激活由RNA聚合酶II(RNAPII)转录的靶基因的表达。增强子主要存在于基因间和内含子区域,而在外显子中也发现了一些增强子。

在过去的几十年里,科学家在不同的物种中(包括酵母、真菌、动物和植物中),鉴定和研究了不少增强子。这些增强子主要使用低通量的方法进行鉴定,如增强子捕获、启动子缺失分析、重组分析和数量性状基因座定位。但从上个世纪八十年代至今,对于增强子的研究仍然很大程度上停留在其定义本身,即增强子是什么、在哪里、具有什么功能以及基因组特征(Pennacchio et al., 2013) 。因为其本身多样灵活的空间位置和基因调控模式使得增强子成为了几乎可能遍布于整个基因组的“暗物质”。增强子的特点如下:

1)具有远距离性

增强子一般位于靶基因上游-200bp处,它可以增强远处启动子的转录,甚至可以激活位于多达一百万bp外的靶基因的表达,如小鼠Shh基因与其增强子ZRS序列之间的调控关系。Shh的增强子ZRS位于1Mb以外的Lmbr1基因的第5个内含子中,ZRS通过与Shh形成loop的方式调节Shh的表达,这是一个典型的增强子案例(Lettice et al., 2003) 。

《如何研究“暗物质”——增强子?(一)》

图3 Shh的增强子ZRS位于1Mb以外的Lmbr1基因的第5个内含子中(Lettice et al., 2003) 。

2)无方向性

     增强子无论位于靶基因的上游、下游或者内部都可以发挥增强转录的作用。例如:调控拟南芥基因LATERAL SUPPRESSORLAS)特异性表达的增强子位于LAS开放阅读框下游3.2kb处,而FLOWERING LOCUS TFT)基因的增强子block C位于该基因的上游5kb左右(Adrian et al., 2010;Raatz et al., 2011) 。

《如何研究“暗物质”——增强子?(一)》

图4 增强子的无方向性(Adrian et al., 2010;Raatz et al., 2011) 。(A)Region C为LAS特异性表达的进化上保守的3’增强子;(B)增强子block CFLOWERING LOCUS TFT)基因上游5kb左右。

3)具有组织特异性

在不同种属的细胞中,其增强转录的活性不同。许多增强子只在某些细胞或组织中表现活性,这是由细胞或组织中特异性蛋白质因子所决定的。例如免疫球蛋白基因的增强子只有在B淋巴细胞内活性最高。在胰岛素β细胞中有一种特异性蛋白因子可以作用于人类胰岛素基因的增强子,以增强胰岛素基因的转录,而在其它组织细胞中没有这种蛋白因子,所以胰岛素基因只有在胰岛素β细胞中才能很好地表达。

4)有相位性——其作用和DNA构象有关。

5)可以在异源物种上发挥作用——携带人类HARE5增强子的小鼠大脑发育出只有人类大脑才有的褶皱,并且比带有黑猩猩HARE5增强子的小鼠胚胎形成的大脑大12%。

《如何研究“暗物质”——增强子?(一)》

图5 科学家将HARE5增强子插入小鼠胚胎(图片来源:J.LOMAX BOYD等)。

6)有的增强子可以对外部信号产生反应——某些增强子可以被固醇类激素所激活;热休克基因的增强子在高温下被激活使该基因表达。

02 寻找“暗物质”

增强子真的让人看不见、摸不着吗?其实科学家们在研究中也逐渐发现增强子在DNA和染色体层面上的特征。本世纪初Phillip Sharp课题组和Bing Ren课题组等发现组蛋白修饰H3K27ac、H3K4me1与增强子活性显著关联,这是对增强子进行鉴定的一个重大突破(Heintzman et al., 2007;Creyghton et al., 2010)。后来,ENCODE利用染色质免疫沉淀(ChIP)技术对增强子表观遗传特征进行系统性的描绘,使得具有特殊修饰状态的组蛋白与DNA区域的结合成为判断增强子存在性的指标。后来,第二代测序技术结合增强子在DNA和染色质层面上的特征,以高通量的方式对增强子进行全基因组鉴定。这使得在人类基因组中发现了超过43000个预测增强子,在果蝇中发现了多达100000个增强子(Weber et al., 2016) 。值得注意的是,基因通常被证明受到不止一种增强子的调节。在许多研究中,增强子都在基因调控中起到关键作用,这些研究表明增强子与正常的胚胎发育和细胞类型的分化相联系,而且还与包括癌症在内的一系列疾病相联系。植物基因组可能也含有许多增强子,并且增强子在植物中的调节作用很可能与在动物中一样重要,但全基因组测序检测增强子在最近才应用于植物。

2.1 增强子的特征和鉴定方法

根据目前已有的研究,增强子区域有许多特定的特征,可以帮助我们鉴定植物基因组中的增强子,包括转录因子(TF)与DNA结合的保守序列(TF binding motifs)、染色质的可及性、特定的组蛋白修饰、eRNA的表达、低DNA甲基化以及与其靶基因的物理相互作用。为了更好地预测和表征增强子,应该并行研究多个特征,因为具有单一特征的区域也可能是其他顺式调控元件或基因编码区。

2.1.1 TF motifs

 增强子通过转录因子的结合而被激活。TF与DNA的这种结合是由特定的共有序列(称为TF motifs)和/或特定的染色质特征(如组蛋白修饰)决定的。增强子富含多种TF motifs。2014年,Anthony Mathelier等人开发了一个包含广泛物种信息并不断更新的转录因子结合图谱开放获取数据库——JASPAR(Mathelier et al., 2014)。目前结合高通量测序方法如免疫共沉淀测序(ChIP-seq)、酶切标签测序(CUT&Tag)或DNA亲和纯化测序(DAP-seq)已经在多个物种中预测出许多TF motifs。比如利用DAP-seq在拟南芥中已经预测出529个TF motifs(O’Malley et al., 2016) 。然而,少有研究通过实验验证这些TF motifs。

《如何研究“暗物质”——增强子?(一)》

图6 拟南芥整体TFs motifs的多样性(O’Malley et al., 2016)。(A)DAP-seq通过motifs的相似性对bZIP家族motifs进行聚类;(B)57个代表性TF motifs分为富含GC(蓝色)的类别和富含AT(红色)的类别;(C)529个TF motifs的多维比例图,突出了57个具有代表性的TF motifs。

由于制备植物TF特异性抗体较为困难,同时TF表达量很低,在植物中ChIP-seq一般考虑构建标签(His、Flag、HA)融合目标蛋白的过表达质粒,使目标蛋白和标签蛋白在受体材料中融合表达,利用标签特异性抗体捕获标签蛋白融合目的蛋白的DNA的复合物。相比于ChIP-seq,CUT&Tag无需交联和片段化、实验简单、信噪比高。而DAP-seq是体外实验,无需制备特异性抗体,可用于无转化体系的植物物种。

2.1.2 染色质可及性

染色质可及性的程度影响转录因子与调节序列的结合。染色质的可及性取决于染色质相关蛋白的局部核小体占位和结合。活性顺式调节元件,如启动子和增强子,定位于开放的基因组区域,也称为核小体缺失区域(NDRs)。NDRs已在拟南芥、玉米和水稻等物种中已进行过全基因组定位。同样,NDRs在拟南芥和玉米中的TF结合位点和保守的非编码序列上富集(Zhang et al., 2012)。此外,在拟南芥中鉴定的几种基因间NDRs在转基因实验中被验证为增强子。

活性增强子序列通常位于NDRs中,对核酸酶活性敏感,这样的序列也称为Dnase I 超敏(DH)位点。因此,脱氧核糖核酸酶I测序(DNase-seq)和微球菌核酸酶测序(MNase-seq)都是鉴定顺式调控元件的非常有价值的工具。另一种鉴定染色质开放性的方法是FAIRE-seq。FAIRE通过用甲醛交联组织或细胞,然后对染色质进行超声处理,并用苯酚/氯仿提取无核小体的DNA片段,来鉴定NDRs。ATAC-seq方法最初是作为MNase-seq、FAIRE-seq、DNase-seq的替代方法或补充开发出来的,相比于其他三个测序方法,ATAC-seq实验方法简单、时间短、需要的样本量少等诸多优点,想了解ATAC-seq的详细知识,可阅读我们的往期文章:解析表观遗传学的工具——ATAC-seq(一)

《如何研究“暗物质”——增强子?(一)》

图7 通过DNase-seq在5号染色体长臂上80kb区域内鉴定的DH位点(Zhang et al., 2012)。方框(黄色和蓝色)表示通过DNA酶序列识别的DH位点。箭头指向使用传统凝胶印迹杂交技术鉴定的DH位点。

2.1.3 组蛋白修饰

组蛋白修饰在基因表达调控中具有不同的作用,包括染色质可及性的调节等。增强子区域的核小体已被证明携带特定的组蛋白修饰。在动物中,H3K4me1同时存在于活性和非活性增强子中。H3的赖氨酸9、12、14和27(H3K9ac、H4K12ac、H3K14ac和H3K27ac)的乙酰化是活性增强子的特征,而H3K27me3是非活性增强子标志。然而,所有这些标记都存在于TSS和/或编码区,阻碍了从单个组蛋白标记中明确鉴定增强子序列。

组蛋白修饰在植物增强子及其活性状态尚不完全清楚,但随着研究的不断深入,这方面的内容也在慢慢完善。例如:豌豆PetE和玉米b1的活性增强子分别富含H3/H4ac和H3K9/K14ac。水稻中的基因间NDRs与H4K12ac密切相关,同时也与H3K27me3密切相关。在拟南芥中的一项研究揭示了非活性增强子与H3K27me3具有正相关性,而活性增强子和H3K27ac具有正相关性,前者的相关性比后者更明显(Zhu et al., 2015) 。总之,目前的结果表明,植物活性增强子通常与H3和H4乙酰化有关,而非活性增强子与H3K27me3有关。ChIP-seq和CUT&Tag通常被用于鉴定全基因组范围内组蛋白修饰特征。

《如何研究“暗物质”——增强子?(一)》

图8 与预测的组织特异性增强子相关的基因表达和组蛋白修饰(Zhu et al., 2015) 。(A)与预测的组织特异性增强子最接近的基因表达水平的方框图。y轴表示表达水平(FPKM),只有FPKM>1的基因被纳入分析;(B)至(E)与预测的组织特异性增强子和侧翼65kb区域相关的组蛋白修饰。将组织特异性增强子的中点(核苷酸位置)排列为中心(0点)。每个点代表组织特异性增强子的ChIP-seq reads数。来自叶片和花朵组织的ChIP-seq数据分别用绿色和红色标记;(B)叶特异性增强子与叶组织的H3K27ac(天蓝色)和花组织的H3K27ac(朱红色)的相关性;(C)花特异性增强子与花组织的H3K27ac(红紫色)和叶组织的H3K27ac(黄色)的相关性;(D)叶特异性增强子与叶组织的H3K27me3(天蓝色)和花组织的H3K27me3(朱红色)的相关性;(E)花特异性增强子与花组织的H3K27me3(红紫色)和叶组织的H3K27me3(黄色)的相关性。LL,叶组织中的叶特异性增强子;LF,花组织中的叶特异性增强子;FL,叶组织中的花特异性增强子;FF,花组织中的花特异性增强子。

2.1.4 eRNA

在动物中,增强子转录本(eRNA)的存在已被证明提供了活性增强子的标志。eRNA是非编码的、相对较短(<2kb)、带帽的、大部分非聚腺苷酸化和未剪接的RNA,并且会被外泌体快速降解。动物增强子通常是双向转录的,尽管绝对eRNA转录水平远低于蛋白质编码基因的转录水平,但它们与其靶基因的转录量相关。一些eRNA是招募转录因子到增强子或介导增强子-启动子相互作用所必需的。但也不能排除,部分eRNA在基因表达调控中没有作用,可能是RNA pol II表达泄漏的产物。有研究结果表明,在拟南芥中,非编码RNA与NDRs存在显著关联。

可以利用RNA-seq的方法检测eRNA的产生来鉴定增强子活性,但需要高测序深度来检测低丰度的eRNA。通过使用基因表达的帽盖分析(CAGE),仅对RNA的5’端进行测序,可以在较低的测序深度检测eRNA。除了含量低之外,eRNA对降解也很敏感,因此,需要更高灵敏度的方法来检测eRNA。

GRO-seq(Genome-wide nuclear run-on assays)能够捕获与活跃转录的RNA聚合酶结合的新生RNA(Nascent RNA),在检测高度不稳定的RNA分子,尤其是发挥关键调控作用的非编码转录本方面具有显著优势,所以GRO-seq是检测eRNA的重要工具(Chen et al., 2022) 。最近开发的GRO-cap在GRO-seq基础上通过特定富集5’加帽的RNAs增加了检测转录起始和捕获RNAs的灵敏度和特异性,这种处理还会降低源于转录后加帽的RNAs的背景信号。

《如何研究“暗物质”——增强子?(一)》

图9 广州大学董志诚课题组报道了一种在六倍体小麦中经济高效地制备GRO-seq文库的研究方案(Chen et al., 2022) 。该方案首次加入了rRNA去除步骤,并成功应用于面包小麦,使得有效数据的比例提高了20倍,测序成本降低了10倍以上。此外,此方案利用小RNA建库替代了之前的cDNA文库制备方法,更加省时高效。本实验方案适用于任何大型复杂植物或动物基因组,为转录调控研究奠定了基础。

2.1.5 DNA甲基化

DNA甲基化与动物和植物的转录沉默有关,当增强子中存在DNA甲基化时,该增强子可以下调靶基因的表达。例如,在植物中,在玉米基因pericarp color1p1)和b1和拟南芥基因FLOWERING WAGENINGENFWA)、TOO MANY MOUTHSTMM)和FT在调节序列上观察到DNA甲基化,会下调靶基因的表达。在人类和小鼠中,许多增强子的DNA甲基化水平是动态调节的,与增强子的活性呈负相关,从而可以鉴定组织特异性增强子。在植物中也有研究表明顺式调控元件的DNA甲基化在植物中以动态方式受到调控。

低DNA甲基化水平可能表明存在活性增强子。全基因组DNA甲基化水平可以使用BS(Bisulfite)-seq来检测。用亚硫酸氢盐(Bisulfite)处理DNA可将胞嘧啶残基(C)转化为尿嘧啶(U),但5-甲基胞嘧啶残基(5mC)对其有抗性,并不会发生转变。因此,用亚硫酸氢盐处理过的DNA仅保留甲基化的胞嘧啶。通过上述原理,对基因组DNA进行亚硫酸盐转换,建库和高通量测序,通过对测序Reads中C-T转换进行分析,即可在单碱基分辨率上检测全基因组甲基化修饰的状态。BS-seq首先在拟南芥中实现,然后在其他几种植物中使用。

《如何研究“暗物质”——增强子?(一)》

图10 BS-seq实验原理。

2019年3月,德国马普研究所Franziska Turck课题组在Nature Plants发表了题为“Targeted DNA methylation represses twoenhancers of FLOWERING LOCUS T in Arabidopsis thaliana“的研究论文。该研究开发了一种通过过表达反向重复序列(IR)介导DNA甲基化RdDM途径的方法,可以鉴定基因的顺式调控元件,并且通过该方法鉴定到拟南芥中FT基因的新型增强子E区,揭示了FT基因的C和E区为转录增强子,其与近端FT启动子组合,在叶韧皮部中响应光周期控制FT的表达(Zicola et al., 2019) 。

2.1.6 增强子-启动子相互作用(染色质相互作用)

增强子被激活和触发基因表达的一般机制已经得到了很好的研究。普遍认为在转录激活过程中,远距离增强子通过转录因子等蛋白的介导与启动子相互作用。有四种可能的作用模型(Eileen et al., 2018) 。1)追踪模型:Pol II与增强子结合,并沿着DNA移动,拉动增强子,直到与近端启动子接触,在启动子中促进普通转录因子和聚合酶的结合;2)链接模型:多个转录因子和相关蛋白相互作用形成连接增强子和启动子的低聚物桥梁,然后介导基因激活;3)成环模型:与增强子结合的转录因子和相关蛋白与启动子邻近区域结合的蛋白质相遇进而产生相互作用,同时向启动子区弯曲靠拢,从而起到增强转录的作用;4)成环-追踪或链接模型:增强子通常会跳过更近的基因与远距离的靶启动子相互作用,长距离的环使增强子靠近启动子,但不能直接靠近,再通过追踪模型或链接模型与启动子靠近。

《如何研究“暗物质”——增强子?(一)》

图11 增强子-启动子相互作用模型(Eileen et al., 2018) 。(A)追踪模型;(B)链接模型;(C)成环模型;(D)成环-追踪或链接模型。

染色体构象捕获技术(Chromosome conformation capture,3C)及其衍生技术(如4C、5C、Hi-C、ChIA-PET等)测量不同基因组区域内的染色质相互作用。3C技术的要点是:先用甲醛交联染色质,固定蛋白与DNA,使染色质保持三维结构。再用一种限制性内切酶(HindIII、BglII、SacI、BamH或EcoRI)切割染色质,蛋白周围的非互作基因被切开,使互作DNA与其他非互作DNA分离。这样形成的loop有两种,一种是同一基因间的loop,一种是互作基因间的loop,用PCR的方式区分这两种loop。

大多数3C通常仅能分析几十到几百kb染色质之间的相互作用,通量低,费时费力。4C用于测定一点到多点之间的染色质交互作用。使用反向PCR产生单基因座的全基因组相互作用图,研究已知DNA片段(bait)与全基因组未知DNA片段之间的互作。5C用于测定多点到多点之间的染色质交互作用。基于3C的基本原理,结合连接介导的扩增来增加3C检测的通量,识别两组大量位点之间并行的数百万个相互作用。ChIA-PET配对末端标签测序分析染色质相互作用技术,把染色质免疫沉淀(ChIP)技术、染色质邻近式连接(Chromatin proximity ligation)技术、配对末端标签(Paired-endtag,PET)技术和新一代测序(Next-generation sequencing)技术融为一体,在基因组三维折叠和套环状态下分析基因表达和调控,全基因组范围内分析远程染色质相互作用。而Hi-C技术以整个细胞核为研究对象,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,通过对染色质内全部DNA相互作用模式进行捕获,获得高分辨率的染色质三维结构信息。

小远叨叨
小远今天主要为大家介绍了增强子以及增强子的鉴定方法,在具体的研究中,往往会采用多种方法进行鉴定,后面有机会再给大家分享研究植物增强子的文献。最后,小远要说:我司拥有ChIP-seq、CUT&Tag、DAP-seq、ATAC-seq等多组学技术,可为您研究增强子提供服务,助力发表高分文章噢!

References:

Adrian J, Farrona S, Reimer JJ, et al. 2010. cis-Regulatory elements and chromatin state coordinately control temporal and spatial expression of FLOWERING LOCUS T in Arabidopsis. Plant Cell 22:1425-1440

Andersson, R. & Sandelin, A. 2020. Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet 21, 71–87.

Chen Y, Zhu J, Xie Y, et al. 2022. Protocol for affordable and efficient profiling of nascent RNAs in bread wheat using GRO-seq. STAR Protoc 3:101657.

Creyghton, M. P. et al. 2010. Histone H3K27ac separates active from poised enhancers and predicts developmental state. Proc. Natl. Acad. Sci. U. S. A. 107, 21931–21936 .

Heintzman, N. D. et al. 2007. Distinct and predictive chromatin signatures of transcriptional promoters and enhancers in the human genome. Nat. Genet 39, 311–318.

Lee, T. I. & Young, R. A. 2013. Transcriptional regulation and its misregulation in disease. Cell 152, 1237–1251.

Lettice LA, Heaney SJ, Purdie LA, et al. 2003. A long-range Shh enhancer regulates expression in the developing limb and fin and is associated with preaxial polydactyly. Hum Mol Genet 12:1725-1735.

Mathelier A, Zhao X, Zhang AW, et al. 2014. JASPAR 2014: an extensively expanded and updated open-access database of transcription factor binding profiles. Nucleic Acids Res 42:D142-147.

Motte H, Vanneste S, Beeckman T. 2019. Molecular and Environmental Regulation of Root Development. Annu Rev Plant Biol 70:465-488.

O’Malley RC, Huang SC, Song L, et al. 2016. Cistrome and Epicistrome Features Shape the Regulatory DNA Landscape. Cell 165:1280-1292.

Pennacchio, L. A., Bickmore, W., Dean, A., Nobrega, et al. 2013. G. Enhancers: Five essential questions. NatRevGenet. 14, 288–295.

Raatz B, Eicker A, Schmitz G, et al. 2011. Specific expression of LATERAL SUPPRESSOR is controlled by an evolutionarily conserved 3′ enhancer. Plant J 68:400-412.

Weber B, Zicola J, Oka R, et al. 2016. Plant Enhancers: A Call for Discovery. Trends Plant Sci 21:974-987.

Xiao, R. et al. 2019. Pervasive Chromatin-RNA Binding Protein Interactions Enable RNA-Based Regulation of Transcription. Cell 178, 107-121.e18 .

Zhu B, Zhang W, Zhang T, et al. 2015. Genome-Wide Prediction and Validation of Intergenic Enhancers in Arabidopsis Using Open Chromatin Signatures. Plant Cell 27:2415-2426.

Zeitlinger, J. 2020. Seven myths of how transcription factors read the cis-regulatory code. Curr. Opin. Syst. Biol 301, 127065.

Zicola J, Liu L, Tanzler P, et al. 2019. Targeted DNA methylation represses two enhancers of FLOWERING LOCUS T in Arabidopsis thaliana. Nat Plants 5:300-307.

Zhang W, Zhang T, Wu Y, et al. 2012. Genome-wide identification of regulatory DNA elements and protein-binding footprints using signatures of open chromatin in Arabidopsis. Plant Cell 24:2719-2731.

《如何研究“暗物质”——增强子?(一)》

 

点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注