植物学家们的美好愿景——建立植物ENCODE(pENCODE)

植物的基因组中包含大量具有重要作用的功能元件,主要与农艺性状和作物驯化有关,靶向编辑这些功能元件可以精准改变重要农艺性状相关基因的表达,但目前植物表观基因组的资源还比较匮乏,科学家们认为向国际植物科学界发起植物ENCODE项目(pENCODE)是十分有必要的。那什么是ENCODE?以及建立pENCODE有什么意义呢?今天伯小远就给大家介绍一下ENCODE、ENCODE使用的技术方法以及我国科学家建立的小型pENCODE数据库。

01
ENCODE:后基因组时代的功能元件研究
21世纪初,在多国科学家的共同努力下,人类基因组草图被成功绘制。但令人吃惊的是,人类基因组中能够编码蛋白质的基因只占整个人类基因组的不到2%,其余超过98%的人类基因组是做什么的还不清楚(Consortium et al., 2007),有科学家把这些DNA叫做“垃圾DNA”。
1.1 ENCODE简介
为了解析这些所谓“垃圾DNA”的结构和功能,在2003年9月由美国人类基因组研究所(US National Human Genome Research Institute,NHGRI)和欧洲生物信息研究所(EMBL – European Bioinformatics Institute,EMBL-EBI)联合启动了ENCODE(ENCyclopedia Of DNA Elements)跨国研究项目,其长期目标是绘制人类以及其他主要的模式生物(如小鼠、果蝇和蠕虫等)基因组功能元件的综合图谱(即表观组),其中包括基因、与基因表达调控相关的DNA区域(如转录因子结合位点、开放染色质和组蛋白修饰等)以及转录复构体(Lane et al., 2014)。ENCODE还开发了获取这些功能元件数据信息所需的技术方法、分析这些数据所需要的软件,以及数据可视化所需的基因组浏览器。ENCODE旨在参考基因组的基础上,试图了解DNA序列信息是如何转化为不同的细胞类型、组织、器官,并最终转化为整个生物体的。ENCODE网站链接为:https://www.encodeproject.org/《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图1 ENCODE网站内容示意图。
1.2 ENCODE进展
ENCODE项目自从启动以来已经经历了4个阶段(图2)(Consortium et al., 2020),目前ENCODE官网已经更新至第五版,该网站为研究人员提供了宝贵的数据资源。1)从2003年至2007年,Phase 1涉及人类基因组的1%,以评估新兴技术。2)从2008年至2012年,Phase 2引入了基于高通量测序的研究技术,如染色质免疫沉淀测序(ChIP-seq)和RNA-seq,这些技术可检测整个人类基因组和转录组。

3)从2013年至2016年,Phase 3扩大研究范围并增加了新型检测方法(图2),诸如通过配对末端标记(ChIA-PET)和Hi-C染色体构象捕获的染色质相互作用分析等方法揭示了染色质3D结构的特征。

4)从2017年至2021年,Phase 4,也称ENCODE 4,通过研究更广泛的生物样本(包括与疾病相关的生物样本),以及通过采用以前未在ENCODE中使用的新测定法,扩大人类和小鼠基因组中候选调控元件的目录。为了研究ENCODE已经编译的候选调控元件的生物学功能,ENCODE 4中添加了一个新的组成部分,即功能元件表征。

ENCODE项目联合会为了最大限度地提高研究者对ENCODE数据的访问权限,设立了超大型数据调度中心(Data Coordination Center,DCC),DCC的任务主要是和数据分析中心(Data Analysis Center)DAC合作定义数据类型,并将数据存储在数据库里,分享给全世界的研究人员。并且该项目能够协调全球各个实验室正在进行的研究,把研究重点放在一系列高度优先项目上,并使样本或数据的收集、获取和传播标准化。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图2 ENCODE已完成的4个阶段(Consortium et al., 2020)。modENCODE,秀丽隐杆线虫和黑腹果蝇的模型ENCODE项目。Mouse ENCODE,老鼠ENCODE项目。DCC,数据调度中心。DAC,数据分析中心。
1.3 ENCODE所使用的技术方法
ENCODE的成功依赖于将表观组拆分成模块进行解析,当这些模块结合在一起时,就能够拼凑出表观全基因组的宏大图谱(Lane et al., 2014)。为了创建这些全基因组图谱,应该获得哪些表观基因组数据集呢?以下描述了用于生成不同类型表观组图谱的最常见技术(图3)。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图3 ENCODE所使用的技术方法。
1.3.1 3D染色质结构研究技术
生物体细胞中长约2米的DNA存在于直径10μm的细胞核内与蛋白质共同构成染色质,在如此高度折叠的情况下,染色质如何精确地调控表达数万个基因?那就离不开对3D染色质结构的解析。分析染色质三维空间结构的方法主要分为两种,一种是显微成像技术,如荧光标记成像结果发现单条染色体在核中有相对独立的疆域(Chromosome Territories,CTs),而ChromEMT断层扫描电镜成像首次在原位观察了染色质的3D结构和压缩情况。另一种是基于测序的染色质构象捕获技术,如3C、4C、5C、Hi-C与ChIA-PET技术。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》图4 研究3D染色质结构技术(3C、4C、5C、Hi-C、ChIP-loop、ChIA-PET)的原理图(Hakim and Misteli, 2012)。

这次主要介绍5C、Hi-C和ChIA-PET,这些技术源于3C(Chromosome conformation capture),3C的原理(图4):

(1)甲醛交联:分离完整的细胞核并进行甲醛交联,使参与染色质相互作用的蛋白固定;

(2)酶切序列:用限制性内切酶切割交联后的基因组;

(3)连接:连接酶连接互作片段,形成环状;

(4)解交联:将连接DNA片段的蛋白质消化掉,得到连接的DNA片段;

(5)PCR检测:使用位点特异性引物通过聚合酶链式反应(PCR)检测和定量单个连接产物。

3C技术需要提前知道互相作用区域,才能量化已知染色质区域之间的相互作用(Dekker et al., 2002)5C(Chromosome Conformation Capture Carbon Copy)首先通过常规3C产生3C文库,然后在多重扩增中使用非特异性引物将其转化为5C文库,再进行高通量测序分析。5C可以检测某段区域内所有的互作,但是区域一般<1Mb,该技术不适用于全基因组的检测(Dostie et al., 2006)

Hi-C(High-throughput/resolution chromosome conformation capture)在3C的技术上进行了改良,限制酶切割后得到的片段具有平末端或粘性末端,然后将末端补平修复。利用末端修复机制,引入生物素标记的碱基。再进行连接处理,距离较近的DNA末端联结在一起。解交联后利用链亲和素磁珠捕获生物素,可富集含有互作关系的DNA片段,再进行文库构建,使用双末端法进行测序(图5)。Hi-C可以实现全基因组覆盖检测全部未知互作区域(Lieberman-Aiden et al., 2009)。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图5 Hi-C技术流程图(Lieberman-Aiden et al., 2009)。

ChIA-PET(Chromatin Interaction Analysis using Paired End Tag sequencing)将Hi-C与ChIP-seq结合,即在片段化DNA后使用特异性蛋白抗体富集DNA和蛋白质复合物,可以检测目的蛋白质的所有相互作用,同时该技术为了区分来自不同蛋白交联区域的序列,引入了双末端标签(Paired-End Tags)标记(图6)。双末端标签的目的在于区分连接之后的DNA序列是否来自同一个蛋白结合的序列(Li et al., 2019)。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图6 ChIA PET实验步骤示意图(Li et al., 2019)。

这些技术在原理、覆盖度、测序方法以及局限性等方面的区别:

表1 3C、4C、5C、Hi-C、ChIP-loop、ChIA-PET的区别(Hakim and Misteli 2012)。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

1.3.2 染色质开放性研究技术
关于研究染色质开放性的技术,在往期“解析表观遗传学的工具——ATAC-seq(一)”一文已经做过详细的介绍,大家感兴趣可以看看哦!在这里只展示ATAC-seq、DNase-seq、FAISE-seq和MNase-seq这些技术的区别。表2 ATAC-seq、DNase-seq、FAISE-seq和Mnase-seq的区别(Sun et al., 2019)。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

1.3.3 转录因子结合位点和组蛋白修饰位点的研究技术
ChIP-seq和CUT&Tag可用于转录因子结合位点组蛋白修饰位点的研究,原理在往期介绍过,这两者也给大家做过比较,不了解的同学可以看看“生命科学研究热点——组蛋白修饰”。这里就给大家介绍一下DAP-seq。DAP-seq(DNA affinity purification and high-throughput sequencing)技术是将体外表达的蛋白和DNA进行亲和纯化,然后将与蛋白结合的DNA洗脱后进行高通量测序(图7),是一种研究转录因子结合位点的高效方法(Bartlett et al., 2017)。相比ChIP-seq这种传统方法,DAP-seq技术不需要抗体,并且实验时间更短,对构建转录因子调控网络方面具有很好的应用前景。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图7 DAP-seq方法概述(Bartlett et al., 2017)。(a)通过基因组DNA剪切成约200bp的片段,并将基于Illumina的测序接头连接到末端,制备DNA文库;(b)与Halo亲和标签融合的转录因子(TF)ORF在体外表达并与Halo亲和标签配体偶联的磁珠结合,而非特异性蛋白质被冲走;(c)HaloTag TF融合蛋白与基因组DNA文库一起孵育,并洗去未结合的DNA片段。使用二代测序对纯化的DNA文库进行测序,并分析由此产生的全基因组结合事件。
1.3.4 DNA甲基化分析
全基因组DNA甲基化测序(Whole Genome Bisulfite Sequencing,WGBS)即亚硫酸氢盐测序(也称为BS-seq),该技术的原理是用亚硫酸氢盐(Bisulfite)处理DNA可将未甲基化的胞嘧啶残基(C)转化为尿嘧啶(U),但甲基化的胞嘧啶包括5-甲基胞嘧啶(5mC)和5-羟甲基胞嘧啶(5hmC)并不会发生转变。因此,用亚硫酸氢盐处理过的DNA仅保留甲基化的胞嘧啶。通过上述原理,对基因组DNA进行亚硫酸氢盐转换,建库和高通量测序,通过对测序Reads中C-T转换进行分析,即可在单碱基分辨率上检测全基因组甲基化修饰的状态(图8)(Stockwell et al., 2014)。值得注意的是,WGBS不能区分5mC和5hmC。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图8 WGBS实验原理。做WGBS需要足够的reads深度来准确的判断甲基化状态,当要测序的是大基因组(如人)时,这可能导致测序的成本过高,RRBS(Reduced representation bisulfite sequencing),即简并代表性亚硫酸氢盐测序技术,通过限制性酶切的方法,富集基因组DNA上CCGG位点的片段,经Bisulfite处理和高通量测序技术,进行基因组CpG富集区域内的单碱基分辨率的甲基化测序。相比较全基因组甲基化测序技术,RRBS仅需要对基因组约1%的区域进行测序,因此费用大大降低(Stockwell et al., 2014)。
02
植物ENCODE(pENCODE)
随着人口的快速增长和气候变暖等环境问题的出现,生物能源、粮食安全和气候变化日益成为人们担忧的问题。国际社会正在努力地推进植物科学发展,以促进粮食作物的产量,并寻找能抵抗未来极端气候条件的植物品种。其中最重要的方法之一就是不断地解析高质量的植物基因组序列。2000年12月公开发布首个植物基因组——拟南芥基因组,标志着植物基因组时代的开始,由此20年间(截止到2020年12月),788个植物物种基因组已被测序,先后发表了1031个参考基因组,涵盖了各种模式和作物物种(图9)(Sun et al., 2022)。这些基因组序列的公布使基因功能鉴定、数量性状定位(QTL)和作物中等位基因的标记等方法全面注释基因组元件成为可能。在这些已有物种的基础上已经启动了大规模的重测序项目,旨在对物种内的序列变异进行分析,这促进了全基因组关联图谱的绘制,并使物种之间的比较基因组研究成为可能。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图9 已发表的植物基因组(截止到2020年12月)(Sun et al., 2022)。(A)自2000年拟南芥基因组发表以来,在染色体和非染色体水平上测序的植物基因组数量;(B)被子植物基因组测序最多的前10个家族;(C)被子植物多倍体基因组的测序数量。

植物基因组的调控区具有大量的农艺性状和作物驯化关联元件,靶向编辑这些调控元件可以精准改变重要农艺性状相关基因的表达。因此,建立植物表观组参考图谱将为作物遗传精准改良提供重要的资源。然而目前植物表观基因组的资源还比较匮乏。随着测序通量的不断提高,以及获取数据的便利,向国际植物科学界发起植物ENCODE项目(pENCODE)是十分有必要的(Lane et al., 2014)。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

2014年,美国乔治亚大学Lane等人在Annual Review Of Genetics杂志上发表了题为“pENCODE:A Plant Encyclopedia of DNA Elements”的文章。该文章重点讨论了建立pENCODE项目的重要性、将会使用到的技术以及面临的挑战(Lane et al., 2014)。
2.1 我国pENCODE进展
近年来,我国科学家也在采用ENCODE计划推荐的数据分析标准和方法建立小型的植物表观组数据库。《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》2018年香港中文大学钟思林课题组在Nature Plants发表了题为“Genome encode analyses reveal the basis of convergent evolution of fleshy fruit ripening”的研究论文(Lu et al., 2018)。利用乙烯调节肉质果实的成熟在被子植物中非常普遍,这说明这些植物存在很明显的趋同进化过程,但其分子基础在很大程度上仍然未知。钟思林课题组开发了fruitENCODE项目,旨在采用ENCODE计划的方法,对七种跃变型(也称呼吸跃变型)肉质水果(苹果、香蕉、甜瓜、木瓜、桃、梨和番茄)的功能元件进行全面注释。还包括四种非跃变型肉质水果(黄瓜、葡萄、草莓和西瓜)和两种干果植物(拟南芥和水稻)进行比较分析。为了构建多肉果实功能基因组学的多维数据集,研究者使用BS-seq、ChIP-Seq、DNase-Seq和RNA-Seq等技术分别对其组织特异性DNA甲基化、组蛋白修饰、染色质可及性和转录组图谱进行了分析。还对由361个转录组、71个可及性染色质、147个组蛋白和45个DNA甲基化图谱组成的fruitENCODE数据进行分析,揭示了控制乙烯依赖性果实成熟的三种类型的转录调控通路,即MADS-type,NAC-type和dual-loop type(图10)。这些调控通路是由祖先被子植物的衰老或花器官身份途径通过新功能化或重新利用先前存在的基因进化而来的。

fruitENCODE的测序数据存储在NCBI SRA数据库,登录号为PRJNA381300,经处理的数据存储在NCBI GEO数据库,登录号为GSE116581。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图10 控制跃变型果实成熟的三种转录调控通路(Lu et al., 2018)。(a)番茄果实成熟调控模型。乙烯转录因子EIN3激活MADS转录因子RIN。RIN与TOMATO AGAMOUS-LIKE1(TAGL1)形成复合物,并激活乙烯生物合成基因,形成正反馈调控通路,在成熟过程中产生自催化乙烯。下游成熟基因通过MADS转录因子直接偶联到这条调控通路上。在叶片和未成熟果实中,该调控通路会受到与启动子DNA超甲基化和抑制性组蛋白H3K27me3相关的关键基因抑制;(b)桃果实成熟调节模型,利用NAC而不是MADS转录因子;(c)香蕉果实成熟调节模型。NAC和MADS之间的额外通路使香蕉果实能够在乙烯抑制剂1-甲基环丙烯(MCP)的存在下合成乙烯。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

水稻(Oryza sativa L.)是我国乃至全世界重要的粮食作物,同时也是基础研究的重要模式植物。水稻基因组DNA顺式调控元件的注释和鉴定,对理解水稻基因表达调控的机理有重要意义。2021年华中农业大学李国亮教授和李兴旺教授带领的团队在Molecular Plant发表了题为“RiceENCODE:A comprehensive epigenomic database as a rice Encyclopedia of DNA Elements”的研究论文(Xie et al., 2021)。研究者们建立了一个水稻多元表观基因组数据的数据库RiceENCODE(http:/glab.hzau.edu.cn/RiceENCODE/),使用包括ChIP-seq、FAIRE-seq、MNase-seq、ATAC-seq、ncRNA-seq、RNA-seq,Hi-C和ChIA-PET等技术检测,共计972套水稻高通量组学数据,涉及三维染色质相互作用、组蛋白修饰、染色质状态、染色质可及性、DNA甲基化和转录组信息。通过标准化的数据处理流程,得到了多维度的高质量表观和三维基因组数据(图11)。这极大地方便了研究人员查询和分析水稻的表观遗传信息,促进了水稻表观和三维基因组的研究。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图11 RiceENCODE数据库的体系结构(Xie et al., 2021)。(A)RiceENCODE数据库的组成;(B)RiceENCODE的网站架构;(C)染色质可及性数据库;(D)mRNA和miRNA表达水平数据库;(E)基因互作数据库;(F)WashU表观基因组可视化展示。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

2022年,南京大学陈迪俊课题组在Nature Communications杂志上发表了题为“ChIP-Hub provides an integrative platform for exploring plant regulome”的文章(Fu et al., 2022)。他们从NCBI SRA数据库中收集来自世界各地不同实验的超过40多个植物物种,总量大于10000个的公开的调控组数据集。这些数据都是通过高通量测序实验产生的,包括ChIP-seq、DAP-seq、DNase-seq和ATAC-seq。陈迪俊课题组基于ENCODE标准以统一的方式对其进行重新分析,并将数据资源和分析结果整合到ChIP-Hub(https://biobigdata.nju.edu.cn/ChIPHub/)在线数据库中,可用于可视化和多组学分析(图12)。

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

图12 ChIP Hub平台的数据收集与计算流程(Fu et al., 2022)。(a)近年来植物中调控组和表观组数据集数量飞速增长。每个数据点代表一个NCBI SRA数据库中的生物项目;(b)时间轴图显示了数据集、出版物和生物项目的数量随时间的变化趋势;(c)饼图显示了按植物物种划分的数据集的分布情况;(d)按样本类别显示数据集分布的饼图;(e)为调控研究开发的标准化半自动分析流程。总之,推动表观组学技术在植物研究中的应用,以ENCODE标准对样本或数据的收集、获取和传播标准化,并将数据分享给全世界的研究人员,这会大幅度地推进植物研究领域的发展,解决“有限的植物表观基因组数据无法满足广大植物学家对植物重要基因元件的挖掘研究”的主要矛盾,也将会是解决未来生物能源、粮食安全和气候变化等问题的重要一环。
篇幅有限,关于ENCODE伯小远就介绍到这里,对ENCODE所使用的技术没有详细展开,大家感兴趣的话,可以找文献来读哦!如果有机会,伯小远还会详细地介绍相关技术。另外,我司拥有ChIP-seq、CUT&Tag、ATAC-seq、DAP-seq、BS-seq等多种表观组学技术服务,助力建设pENCODE,还可以利用ENCODE数据库中已有的数据信息进行分析,助力发表高分文章噢!References:Bartlett A, O’Malley RC, Huang SC, et al. 2017. Mapping genome-wide transcription-factor binding sites using DAP-seq. Nat Protoc 12:1659-1672.

Consortium EP, Birney E, Stamatoyannopoulos JA, et al. 2007. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447:799-816.

Consortium EP, Snyder MP, Gingeras TR, et al. 2020. Perspectives on ENCODE. Nature 583:693-698.

Dekker J, Rippe K, Dekker M, et al. 2002. Capturing chromosome conformation. Science 295:1306-1311.

Dostie J, Richmond TA, Arnaout RA, et al. 2006. Chromosome Conformation Capture Carbon Copy (5C): a massively parallel solution for mapping interactions between genomic elements. Genome Res 16:1299-1309.

Fu LY, Zhu T, Zhou X, et al. 2022. ChIP-Hub provides an integrative platform for exploring plant regulome. Nat Commun 13:3413.

Hakim O, Misteli T. 2012. SnapShot: Chromosome confirmation capture. Cell 148:1068 e1061-1062.

Lane AK, Niederhuth CE, Ji L, et al. 2014. pENCODE: a plant encyclopedia of DNA elements. Annu Rev Genet 48:49-70.

Li G, Sun T, Chang H, et al. 2019. Chromatin Interaction Analysis with Updated ChIA-PET Tool (V3). Genes (Basel) 10.

Lieberman-Aiden E, van Berkum NL, Williams L, et al. 2009. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science 326:289-293.

Lu P, Yu S, Zhu N, et al. 2018. Genome encode analyses reveal the basis of convergent evolution of fleshy fruit ripening. Nat Plants 4:784-791.

Stockwell PA, Chatterjee A, Rodger EJ, et al. 2014. DMAP: differential methylation analysis package for RRBS and WGBS data. Bioinformatics 30:1814-1822.

Sun Y, Miao N, Sun T. 2019. Detect accessible chromatin using ATAC-sequencing, from principle to applications. Hereditas 156:29.

Sun Y, Shang L, Zhu QH, et al. 2022. Twenty years of plant genome sequencing: achievements and challenges. Trends Plant Sci 27:391-401.

Xie L, Liu M, Zhao L, et al. 2021. RiceENCODE: A comprehensive epigenomic database as a rice Encyclopedia of DNA Elements. Mol Plant 14:1604-1606.

《植物学家们的美好愿景——建立植物ENCODE(pENCODE)》

点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注