在演化生物学领域,学界达成的共识是生物体都有一个共同的祖先,物种的多样性源于遗传、变异和自然选择的复杂过程。组学技术的产生和发展将演化研究的范围从线性的核苷酸序列和单基因扩展到染色质高级结构和多基因的复杂相互作用。在过去的十余年中,植物基因组学领域经历了迅速的发展,产生了大量的基因组和调控组学数据。因此,调控演化的研究成为植物中一个新兴的研究领域。鉴于此,迫切需要对调控元件和染色质高级结构演化相关研究进行梳理和综述,同时为未来的研究提供指导方向。
12月6日,华中农业大学棉花团队受邀在植物学知名杂志《Trends in Plant Science》上发表综述论文“Evolutionary insights into the organization of chromatin structure and landscape of transcriptional regulation in plants”。文章总结了植物中调控演化的研究进展,重点关注了植物调控元件的演化,并介绍了转座子驱动的顺式调控元件(CRE)演化模型。同时,作者讨论了染色质高级结构的演化模式,包括全基因组相互作用、不同层级的染色质结构以及同源基因的空间位置关系。此外,作者提出了未来调控演化的研究方向和需解决的重要问题。
调控元件的演化
已有实验表明,顺式调控元件(CRE)在植物中广泛存在并起到重要的调控作用。同时,许多序列变异(转座子活动、结构变异和全基因组加倍)都会显著影响CRE的多样性。转座子的扩增对于CRE的影响主要集中在塑造新的CRE和改变CRE和其目标基因的之间的距离。
这里作者着重阐述了植物多倍化过程对CRE的塑造模型。以小麦为例,在二倍体祖先A、B和D基因组分化期间,TE家族的差异化扩增塑造了CRE的多样性,导致多倍体小麦中转录因子的不平衡活动(图1B)。相对应,有一些在TE内部的CRE在二倍体分化和多倍化过程中都是保守的,在纯化选择下,即使这些CRE周围的序列已经发生较大变异(TE结构受到破坏),核心CRE也被保留了下来。
这些CRE的多样性在物种的形成和适应性演化上同样也具有十分重要的意义。在油菜中,CRE序列的多态性可能和开花关键基因BnaTFL1的四个拷贝完全不同的表达模式相关。淹涝相关的CRE基序增多和开放程度的增加有利于水生植物向陆生植物的演变。光合作用相关的重要转录因子GLK在不同的植物之间的结合位点也具有较大的特异性。
染色质高级结构的演化
远端的CRE往往通过形成“染色质环”结构来调控基因的表达,因此研究基因的染色质高级结构对于我们理解调控演化具有重要的作用。在植物中,染色质的层级结构主要分为染色质疆域、A/B区室、拓扑关联结构域(TAD)和染色质环(loop)。
在全基因组互作层面,对于染色体内部互作来说,存在祖先染色体互作保留的现象(图1C)。来自同一个祖先的染色体片段间的互作要大于来自不同祖先染色体的片段间的互作。但随着物种形成后的演化,也会出现许多新的染色体互作。但对于不同的染色体间互作,来自相同和不同祖先的染色体互作没有显著的差异。在A/B区室层面,这一结构在演化中较为保守,这和祖先染色体保留现象相类似。但仍观察到大量的A/B区室转换事件,例如在Brassica rapa和Brassica oleracea之间,观察到了约有60%的区室转化事件。这些区室转换事件可能和基因组结构变异相关。
TAD在协调基因的表达方面起到了重要的作用。在演化中,TAD结构呈现较大的动态性。染色体重排富集在TAD边界内,然而SNV、InDel和PAV在TAD边界上减少。发生在TAD边界的转座子扩增和结构变异可能会介导TAD结构变化(新的TAD形成和TAD的融合);发生在TAD内部的不平衡的结构变异会导致TAD大小的变化(图1D)。植物中关于loop的演化研究较少。目前的研究表明物种特异的loop产生主要有三种因素(图1E)。第一,特异的序列导致特异的loop锚点;第二,loop锚点的染色质状态的改变;第三:序列变异介导的loop锚点间距离的变化。除此之外,在多倍化后,同源基因之间在空间位置上相对于其他基因之间较为接近,并且表达量较高的同源拷贝具有更多的染色质互作(图1F)。
图1:序列水平变异关联的染色质高级结构和调控网络的重排。
总结与展望
作者对于未来调控演化的研究展开了4个方面的展望:
1、技术驱动的调控网络构建(图2A)。目前新兴的组学技术,例如HiChIP、SPRITE-IP等,可以在捕获染色质构象的同时也捕获转录因子的结合信息,这就可以帮助我们更好的构建基因的调控网络。除此之外,单细胞技术的产生也可以使我们更加精确理解基因的调控网络。
2、序列变异介导的调控元件的功能化(图2B)。泛基因组的研究可以帮助我们构建最小(核心)和最大(泛)基因组。这就可以帮助我们进一步理解,从核心基因组到泛基因组的过程中,序列变异如何一步步驱使调控元件的演化。
3、表型演化中的染色质高级结构重排(图2C)。我们可以利用在演化过程和育种过程中出现的表型极端材料,去探究极端表型背后潜在的调控演化差异。
4、染色质构建维持机制的演化(图2D)。探索不同植物中驱动染色质结构形成机制的演化模式,例如:从低等植物到高等植物。这可能会产生许多机制上的新见解。
此外,提出了6个重要问题需进一步解决
1、是否可以借助已有的多组学数据并利用深度学习或者其他生物信息学方法在非模式植物中更加准确地鉴定CRE并构建基因的调控网络?
2、植物中染色质互作形成的机制是什么?哪些蛋白质参与了这个过程?相分离在维持染色质互作中是否起作用?这些机制在不同的植物物种之间是否存在差异?
3、序列变异与染色质高级结构变化之间的因果关系是什么?结构变异是在染色质高级结构变化之前发生的,反之亦然,还是它们同时发生?
4、如何利用现有的实验技术,如基于CRISPR/Cas9的基因编辑和植物转化,来研究染色质高级结构的特定变化对基因表达的影响?
5、基因共表达网络、基于ChIP-seq或DAP-seq构建的网络和基于染色质高级结构的网络之间有什么关系?哪些网络可以更加准确地描述了真正的基因调控网络?是否可以开发算法来有效地整合它们?
6、跨物种比较染色质层级结构(A/B区室、TAD和loop)的统一标准是什么?如何类似于同源基因的鉴定来定义同源TAD和同源loop?
图2:调控元件和染色质高级结构演化的未来研究方向。
华中农业大学硕士生龙跃轩为该论文的第一作者,王茂军教授为该论文的通讯作者。华中农业大学张献龙院士和美国爱荷华州立大学Jonathan F. Wendel院士参与了文章撰写和讨论工作。特别感谢复旦大学张一婧教授和密歇根州立大学蒋继明教授对本文撰写的帮助。该工作得到了国家自然科学基金、国家重点研发计划、美国国家科学基金会植物基因组计划等项目的资助。
文章来源:植物生物技术Pbj