利刃出鞘——如何利用转录组获得目的基因?

本文内容速览:

《利刃出鞘——如何利用转录组获得目的基因?》

生命活动的正常执行往往依赖于机体中多层次、多功能的复杂结构系统,涉及一整套精密的表达调控机制。基因组学、表观组学、转录组学、蛋白质组学和代谢组学等多组学实验能为大家提供植物生命活动过程中多个层面的海量数据,帮助大家全面系统地挖掘在植物复杂调控网络中发挥重要功能的基因,解析从基因到表型的信息传递过程。

要理清多组学关联分析的思路,还要从理清单一组学分析的思路入手。转录组是大家目前最熟悉、使用最多的组学技术之一。在中心法则中,RNA被认为是DNA与蛋白质之间遗传信息传递的“桥梁”,同样,转录组也位于多组学的中心,可以与其他组学进行关联分析(图1)。在本次推文中伯小远就先为大家介绍利用转录组获得目的基因的方法,感兴趣的小伙伴快来看看吧!

《利刃出鞘——如何利用转录组获得目的基因?》

图1 通过多组学解析从基因到表型的信息传递过程(Hasin et al., 2017)。

1 转录组简介

转录组(Transcriptome)在广义上是指特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的总和,包括信使RNA(Messenger RNA, mRNA)和非编码RNA(Non-coding RNA, ncRNA),如长链非编码RNA(Long non-coding RNA, lncRNA)、微小RNA(microRNA, miRNA)、环状RNA(circRNA)等。而在狭义上转录组是指所有mRNA的集合。

《利刃出鞘——如何利用转录组获得目的基因?》

图2 所有RNA的类型以及关系示意图(Wang et al., 2016)。

根据RNA长度的不同,全转录组测序构建去核糖体链特异性文库和小RNA文库,可检测多种RNA的含量。去核糖体链特异性文库是长片段文库,通过测序可获得mRNA、lncRNA和circRNA的含量;小RNA文库是短片段文库,通过测序可获得miRNA、小干扰RNA(siRNA)等的含量。大家通常所说的转录组测序是狭义上对所有mRNA的集合进行测序。转录组测序通过高通量测序技术对组织或细胞中所有mRNA反转录而成的cDNA文库进行测序,再利用生物信息学分析转录本的结构和表达水平。不管是全转录组测序还是转录组测序,挖掘目的基因的方法大致相同,这里伯小远只提供一些通用性的方法,希望大家能够从中获得启发。

2 利用转录组获得目的基因

转录组筛选目的基因的核心就是基于基因的表达量展开分析,例如:差异表达分析、富集分析、表达模式分析等。

2.1
差异表达分析

差异表达分析是指比较两组样本间基因的表达水平是否有差异,分析实验组与对照组基因的表达是否上调或下调,并确定这些差异是否显著。当一个基因在两组样本间差异显著,这表明该基因与两组样本之间的表型差异具有显著相关性,例如:在干旱处理与非干旱处理的植株叶片中,一个基因的表达差异显著,那么可以推测该基因可能在植物响应干旱胁迫中起到了调控作用。大家需要根据实验需求来设计不同样本组间两两比较的组合。

那么什么是差异显著?统计学使用假设检验来评估差异表达分析中的显著性。主要是对两组样本基因表达量的差异倍数(Fold change)进行假设检验,并使用P值(P-value)或q值(q-value,也称为FDR)来评估假设检验中的假阳性率。假阳性率代表不是样本数据本身有差异,而是其他原因(比如取样)导致数据结果有差异,假阳性率越小,越有理由相信基因在两个样本间是有差异的。P-value表示在零假设成立的情况下,检测到的差异或更极端差异的概率,通常以P-value<0.05为显著,P-value<0.01为极显著。q-value则是P-value进行校正后的结果,它是多重假设检验后的期望值,相对于P-value更加严格。

通常将|Fold change|>2且q-value<0.05的基因称为差异表达基因(Differential expression gene, DEG)。当然这个标准也可以根据实际数据调整,保证获得一定数量范围内的上调和下调DEG,基因数量太多或太少不利于选取目的基因。如果有上万个DEG,可以选择更低的阈值,例如q-value<0.01。如果只有几十个DEG,可以将差异倍数降低,例如|Fold change|>1.5,也可以选择更宽松的P-value,例如P-value<0.05。大家可以将差异倍数高且差异极显著的基因作为候选目的基因。

差异表达分析的结果通常会以表格的形式将DEG的ID、差异倍数、显著性水平等信息展示出来,方便大家查阅和分析。但在文献中通常会用火山图、柱状图等形式更直观地呈现DEG的信息(图3、4)。

《利刃出鞘——如何利用转录组获得目的基因?》

图3 DEG火山图。图中显示与样本ck1相比,样本test1中有2565个基因表达显著上调(up),748个基因表达显著下调(down)。红点表示上调DEG,绿点表示下调DEG,蓝色表示非差异表达基因(noDeg)。红箭头指出的是差异倍数高且差异极显著的基因,可以作为候选目的基因。P-value<0.05,|Fold change|>2。图片来源:伯远生物。

《利刃出鞘——如何利用转录组获得目的基因?》

图4 DEG统计柱状图。红色代表上调DEG,蓝色表示下调DEG。P-value<0.05,|Fold change|>2。图片来源:伯远生物。

如果样本多于两组,在统计完各个比较组间DEG的数目后,还可以使用韦恩(Venn)图展示各个比较组间DEG集合的交集和并集,大家可以清楚地看到哪些DEG存在于多个比较组之间的交集,以及哪些基因是特定存在于某个比较组的独有DEG。这些共有的DEG在不同样本中都具有重要的意义,可能是与特定生理过程或处理相关的关键基因(图5)。

《利刃出鞘——如何利用转录组获得目的基因?》

图5 野生型和处理组植株三个比较组中上调或下调DEG集合的Venn图(Zheng et al., 2019)。

2.2
富集分析

除了差异表达分析以外,大家常听见的术语肯定是富集分析(也称为功能聚类分析)。面对海量的组学数据时,富集分析可以根据DEG的功能对其进行归类,将具有相似功能的基因聚类在一起,从而减少对DEG逐个研究的工作量。通过差异表达分析,可以寻找具有统计学意义的差异显著的基因,而通过富集分析,可以寻找具有重要生物学意义的基因。如果大家了解与自己研究方向相关的基因功能,通过富集分析来寻找目的基因会更具有目的性。

那什么是富集呢?富集分析涉及两个概念,前景基因和背景基因,前景基因是大家关注的基因集合(DEG集合等),背景基因就是所有基因集合。例如:在对照组和处理组两个样本的转录组测序中,前景基因就是对照组与处理组比较的DEG,背景基因就是这两个样本的所有基因。如果注释到某个生物功能的DEG占所有DEG的比例,大于注释到这个生物功能的基因占所有基因的比例,称为富集,多重检验校正表明这种富集并不是随机波动造成的,称为显著富集。举个例子,我想知道与全国相比,武汉市的大学生人数是否显著富集?在这个问题中,武汉市的人口数量就是前景基因,全国人口数量就是背景基因,“大学生”就相当于武汉市民的某个“生物功能”,还有其他的“生物功能”,例如“中学生”、“小学生”等,武汉市的大学生人数所占武汉市总人口的比例高于全国大学生在全国总人口中所占的比例,并且多重检验校正表明这种富集不是随机波动,则我们可以认为与全国相比武汉市的大学生人数显著富集。

常用的富集分析包括基因本体论(Gene Ontology, GO)富集分析和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)富集分析。这两者均基于统计学的超几何分布,可以将它们简单理解为先利用GO数据库或KEGG数据库对上调或下调DEG进行功能分类,再利用超几何检验计算出来P-value,根据P-value<0.05来判断是否显著,如果想要更准确一点,经过多重检验校正得到q-value,以q-value<0.05来判断DEG富集到某一生物功能或代谢途径是否显著。通过富集分析,大家可以了解差异分析得到的DEG主要具有哪些生物学功能,也可以挑选研究方向相关或显著富集的生物学功能中的基因进行功能研究。

GO是基因功能国际标准分类体系,它分为分子功能(Molecular Function, MF)、生物过程(Biological Process, BP)和细胞组成(Cellular Component, CC)三个部分,描述了基因可能行使的分子功能、所处的细胞位置、参与的生物学过程。每个基因都会对应有一个或多个GO功能条目(GO term)。GO富集分析结果会以表格的形式罗列出来,但文献中主要以柱状图、气泡图(散点图)、富集圈图和有向无环图等形式呈现(图6)。

《利刃出鞘——如何利用转录组获得目的基因?》

图6 GO富集分析柱状图。图中展示P-value前20的GO term,横坐标是GO term的具体名称,纵坐标是对应GO term中基因个数的log2值。图片来源:伯远生物。

KEGG是系统分析基因功能、基因组信息的数据库,KEGG提供的整合代谢途径(pathway)包括碳水化合物、核苷、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行了全面的注释,是进行生物体内代谢分析、代谢网络研究的强有力工具,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG可视化结果包括柱状图、气泡图(散点图)、富集圈图和富集通路图等(图7)。

《利刃出鞘——如何利用转录组获得目的基因?》

图7 KEGG富集分析气泡图。图中展示P-value前20的KEGG pathway。纵坐标是KEGG pathway的具体名称,横坐标是对应KEGG pathway中检出的基因占背景基因的个数,颜色反映P-value的大小,气泡的大小反映DEG的个数。图片来源:伯远生物。

基因集富集分析(Gene Set Enrichment Analysis, GSEA)是一种基于基因集的富集分析方法。有了GO和KEGG富集分析,为什么还要进行GSEA富集分析呢?这是因为GO和KEGG富集分析需要通过设定阈值获得显著上调或下调的DEG,容易遗漏部分差异表达不显著但有重要生物学意义的基因。同时,富集到某个通路的基因可能既有上调DEG又有下调DEG,那么这条通路总体是被抑制还是被激活是不清楚的。

GSEA的原理比较复杂,举一个简单的例子。例如:获得实验组A和对照组B的所有表达基因在KO05410这条代谢通路中富集(只是富集不一定显著)的基因集合后,GSEA会按照集合中每个基因的Fold change从大到小进行排序,接着,计算富集得分(Enrichment Score),估计富集得分的显著性水平和多重假设检验,最后会得到下面这张峰图(图8),同样也会得到P-value和q-value。峰图下面每个竖线就代表一个基因,在红色部分的基因在实验组A中表达量高,蓝色部分的基因在对照组B中表达量高。然后看某一个基因集合的所有基因主要位于这个排列顺序的红色部分还是蓝色部分,也就是峰在红色部分还是蓝色部分。如果在红色部分则表示A样本与KO05410这条代谢通路正相关,下图中显示的是正相关,说明KO05410这条代谢通路在A样本中整体被激活;如果在蓝色部分则KO05410这条代谢通路在A样本中整体被抑制。大家可以通过GSEA富集分析来判断特定生物功能的基因集合与样本或表型的关系,还可以重点关注具有显著P-value或q-value峰图中位于两侧的基因(图8中两侧竖线),例如下图峰顶左侧的基因可以认为是核心基因(Subramanian et al., 2005)。

《利刃出鞘——如何利用转录组获得目的基因?》

对ncRNA进行富集分析时就需要采取迂回战略,即通过靶向关系(例如miRNA靶向的mRNA)、共表达关系(例如ncRNA与mRNA的共表达情况)和基因座位关系(例如lncRNA基因座位附近的蛋白质编码基因,circRNA的亲本基因)等将ncRNA集合转换为对应的mRNA集合,再进行GO、KEGG、GSEA富集分析。当然目前有专门进行ncRNA富集分析的数据库,例如LncSEA(http://bio.liclab.net/LncSEA/index.php),它是哈尔滨医科大学于2020年发布的lncRNA注释和富集分析综合数据库。

2.3
表达模式分析

如果样本实在太多,进行两两比较和绘制韦恩图变得繁琐且难以理清目标基因集合,而且样本是时间节点或浓度梯度这类有连续性关系的样本,可以进行表达模式分析(也称趋势分析或表达聚类分析),大家能够从所有表达基因的表达谱中快速获取我们所关注趋势的基因集合或哪种变化趋势是最显著的变化趋势,也可以获取DEG的表达模式或显著富集的代谢通路中基因的表达模式。表达模式分析的可视化结果包括聚类热图或趋势图等(图9)。

《利刃出鞘——如何利用转录组获得目的基因?》

图9 DEG聚类热图。选取DEG,对这些基因在各样本中的表达情况进行表达模式分析。图片来源:伯远生物。

如果样本数大于15(建议5组以上),可以考虑开展加权基因共表达网络分析(Weighted correlation network analysis, WGCNA),WGCNA是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及获得网络中的核心基因。从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分(图10A、B),其原理比较复杂,伯小远在这里不详细介绍了。

《利刃出鞘——如何利用转录组获得目的基因?》

图10 WGCNA分析(Cui et al., 2019)。(A)9个模块的共表达基因的层次聚类图;(B)模块-性状特征关系图。每行表示一个模块,每列表示一个性状,方格上面的数字代表相关系数,相关系数从−1(蓝色)到1(橙色),正值代表模块与性状正相关,负值代表模块与性状负相关,括号中的数字代表显著性,其小于0.05则模块与性状相关性显著。

3 利用转录组获得目的基因文献案例

文献案例一
植物果实刚开始成熟时,呼吸强度会骤然升高,当到达一个高峰值后又快速下降,这一现象被称为呼吸跃变,这类果实也被称为跃变型果实,常见的跃变型果实有香蕉、苹果和木瓜等。乙烯被认为是参与呼吸跃变的主要激素。呼吸跃变会导致果实极易腐烂,影响果实的贮藏,研究表明,1-甲基环丙烯(1-MCP)是一种乙烯受体抑制剂,可以延缓香蕉、苹果和木瓜等水果的成熟和腐烂。目前,乙烯的生物合成在苹果呼吸跃变过程中的调控机制还并不清楚。
2023年8月,沈阳农业大学王晓雪课题组和王爱德课题组联合在Horticultural Plant Journal杂志上发表了一篇题为“Comparative Transcriptome Analysis of the Climacteric of Apple fruit Uncovers the Involvement of transcription factors affecting ethylene biosynthesis”的研究论文。作者为了鉴定苹果果实贮藏过程中差异表达的转录因子,明确它们调控苹果果实呼吸跃变过程中乙烯合成的模式。作者首先利用RNA-seq分析呼吸跃变前(0-Pre),呼吸跃变后(15-Post)和1-MCP处理后15天(15-MCP)的苹果果实,发现了许多与乙烯有关的DEG,它们参与乙烯合成和信号通路(图11)。对这些基因进行表达模式分析,结果显示MdACS1在0-Pre和15-MCP样本中表达量极低,而在15-Post样本中表达量显著上调,MdACS1启动子上具有MADS-box、ERF、NAC、Dof和HSF家族的结合位点,同时在DEG数据中也鉴定到了这些家族差异表达的转录因子,包括MdAGL30、MdAGL104、MdERF008、MdNAC71、MdDof1.2、MdHSFB2a和MdHSFB3等。
《利刃出鞘——如何利用转录组获得目的基因?》
图11 与乙烯生物合成和信号转导相关差异基因的代谢通路和通路中基因的聚类热图(Li et al., 2022)。

接着,作者通过酵母单杂实验(Yeast one hybrid, Y1H)和双荧光素酶报告基因实验(Dual-luciferase reporter assay, Dual-LUC)验证了这些转录因子与MdACS1的启动子结合,说明鉴定出的转录因子在果实乙烯生物合成中具有调控作用(图12)。

《利刃出鞘——如何利用转录组获得目的基因?》

图12 转录因子与MdACS1启动子结合的验证实验(Li et al., 2022)。

文献案例二
植物激素是控制植物发育的内在因素。在拟南芥等模式植物中,不同植物激素协同、拮抗和叠加等相互作用的复杂调控网络已得到阐明。然而,甘蓝型油菜的激素交互作用的调控网络在很大程度上是未知的。2023年4月,华中农业大学戴成课题组和杨庆勇课题组在Plant Biotechnology Journal杂志上发表一篇题为“Comparative transcriptome profiling reveals the multiple levels of crosstalk in phytohormone networks in Brassica napus”的研究论文。作者利用转录组测序揭示了甘蓝型油菜中7种激素共同调控的基因,构建了7种激素之间的调控网络,发现了赤霉素(GA)和细胞分裂素(CK)之间一种调控关系。此外,作者还创建了一个数据网站(http://yanglab.hzau.edu.cn/BnTIR/hormone),这些实验数据都可在线获取。

该研究通过共表达分析(类似于前文提到的表达模式分析)探究了参与激素代谢调节的关键转录因子,每种激素的共表达网络将基因的表达模式与激素生物合成基因相关联。以GA为例,生物活性GA由质体中的香叶酰二磷酸香叶酰(Transgeranylgeranyl diphosphate)合成,且GA的主要代谢途径已在模式植物中阐明。这些GA结构基因的表达在不同激素处理下的甘蓝型油菜中表现出不同的模式(图13a),且这些基因的转录本与306个转录因子(TF)高度相关,包括B3、bHLH、Dof和MIKC_MADS家族(图13b)。为了研究这些转录因子的潜在调控作用,作者选择了BnaDOF5.7、BnaAGL15和BnaFUS3三个转录因子进行调控网络分析,结果显示BnaDOF5.7、BnaAGL15和BnaFUS3转录本分别与7个、7个和8个GA结构基因高度相关(图13c)。

《利刃出鞘——如何利用转录组获得目的基因?》

图13 寻找调控GA生物合成的关键转录因子(Liu et al., 2023)。(a)GA的生物合成途径。聚类热图表示在不同激素处理下GA生物合成途径中基因的表达模式,蓝色表示低表达量,红色表示高表达量;(b)GA生物合成的共表达调控网络。粉红色圆点代表GA生物合成基因。不同颜色的菱形点代表不同的转录因子家族,其转录物与GA生物合成基因的表达相关;(c)甘蓝型油菜GA生物合成的转录调控网络。菱形点代表调控甘蓝型油菜GA生物合成的关键转录因子。

作者发现在GA生物合成相关基因的启动子序列上具有Dof、MADS和B3型TF的预测结合位点(图14a)。进一步研究BnaDOF5.7、BnaAGL15和BnaFUS3对GA生物合成相关基因的潜在调控作用,Dual-LUC实验表明BnaC9.AGL15和BnaC2.FUS3都能分别抑制BnaA6.KO的表达,BnaC9.AGL15抑制BnaC4.GA20OX4的表达,BnaA6.DOF5.7激活BnaC4.GA20OX4的表达(图14c)。BnaA06.KO启动子中有两个预测的FUS3结合位点,分别指定为P1(1049至1043bp)和P2(253至247bp)。Y1H和凝胶迁移实验(Electrophoretic mobility shift assay, EMSA)结果表明BnaC2.FUS3可以直接结合到BnaA6.KO启动子的P1位点(图14d、e)。然而,包含P2位点的区域在Y1H实验中表现出很强的自激活,EMSA实验结果显示BnaC2.FUS3和BnaA6.KO启动子的P2位点之间没有直接结合。这些结果证明BnaC2.FUS3通过特异性结合BnaA6.KO启动子的P1位点来抑制BnaA6.KO的表达。

《利刃出鞘——如何利用转录组获得目的基因?》

图14 验证关键转录因子对GA生物合成相关基因的调控作用(Liu et al., 2023)。(a)不同GA生物合成基因的启动子上转录因子结合位点的示意图;(b)Dual-LUC实验的载体示意图;(c)Dual-LUC实验测定的比值;(d)Y1H实验验证BnaA6.KO与BnaC2.FUS3互作;(e)EMSA实验验证BnaC2.FUS3与BnaA6.KO互作。

《利刃出鞘——如何利用转录组获得目的基因?》

小远叨叨
如何利用转录组获得目的基因就介绍到这里,转录组数据的分析方式还有很多,如果感兴趣的话,大家多找文献来读一读。伯小远后续还会写关于多组学联合分析寻找目的基因的推文,想了解的宝子们一定不要错过哦!

References:

Cui Y, Bian J, Lv Y, et al. Analysis of the transcriptional dynamics of regulatory genes during peanut pod development caused by darkness and mechanical stress[J]. Frontiers in Plant Science, 2022, 13: 904162.

Hasin Y, Seldin M, Lusis A. Multi-omics approaches to disease[J]. Genome biology, 2017, 18(1): 1-15.
Li T, Zhang X, Wei Y, et al. Comparative transcriptome analysis of the climacteric of apple fruit uncovers the involvement of transcription factors affecting ethylene biosynthesis[J]. Horticultural Plant Journal, 2023, 9(4): 659-669.
Liu D, Yan G, Wang S, et al. Comparative transcriptome profiling reveals the multiple levels of crosstalk in phytohormone networks in Brassica napus[J]. Plant Biotechnology Journal, 2023.
Subramanian A, Tamayo P, Mootha V K, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles[J]. Proceedings of the National Academy of Sciences, 2005, 102(43): 15545-15550.
Wang Y, Hou J, He D, et al. The emerging function and mechanism of ceRNAs in cancer[J]. Trends in Genetics, 2016, 32(4): 211-224.
Zheng L, Yang Y, Gao C, et al. Transcriptome analysis reveals new insights into MdBAK1-mediated plant growth in Malus domestica[J]. Journal of agricultural and food chemistry, 2019, 67(35): 9757-9771.
《利刃出鞘——如何利用转录组获得目的基因?》
向上滑动查看更多文献
NO.1好文推荐
Historical articles
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注