在真核生物基因组中,Long non-coding RNAs(lncRNAs)数量巨大且分布广泛,从开花到侧根发生,lncRNA在植物的生命活动中发挥着重要作用。过去的几十年,已经在植物中鉴定到了上千条lncRNA,lncRNA的功能研究远远落后于lncRNA的鉴定工作。2023年02月04日,来自纽约康奈尔大学博伊斯·汤普森研究所的Andrew D. L. Nelson团队在The Plant Cell 杂志上发表了题为 “Linking discoveries, mechanisms, and technologies to develop a clearer perspective on plant long non-coding RNAs” 的研究论文。在本文中,研究人员概述了植物lncRNA的研究历程与发展前景。最后,本综述讨论了该领域面临的挑战以及一些令人兴奋的新分子方法和计算方法,这些方法可能有助于lncRNA的比较和功能分析。
1. 植物中lncRNA的研究史
图1. 过去数十年中关于植物lncRNA重要研究
前基因组时代:植物生物学家在真核RNA生物学领域做出了开创性的贡献,在基因组世代开启之前,就有少量lncRNA被鉴定为广泛细胞活动的参与者(图1)。在这一时期,lncRNA是基于其生物学功能而非作用机制而被鉴定的。到2000年,至少有五种lncRNA得到了功能上的描述,包括截短苜蓿中的ENOD40、黄瓜中的CR20、烟草与拟南芥中的GUT15、截短苜蓿中的MT4和番茄中的TPSI1。在这些lncRNA被发现时,研究者尚不清楚是否存在特异性的RNA作用机制,但一些重要的观察表明这些lncRNA的功能作用与编码序列无关。
基因组时代:拟南芥基因组测序后的十年中,大量研究证明植物基因组的未标记区域存在广泛的转录。这些研究大多依赖于扩大以mRNA为中心的ESTs数据库以及全长cDNA序列。一些研究者使用了更加严格的标准识别高置信度的lncRNA,包括高GC含量、稳定的RNA结构以及阻止翻译等特征。因此,在大规模采用RNA测序之前,已经可以确定数千个存在于植物基因组中的lncRNA。
NGS(next-generation RNA sequencing)时代:转录组学的进步使得多组织、多条件下的lncRNA鉴定工作变得更加便宜和方便。在这个阶段,lncRNA的研究拓展到几乎所有模式作物以及与农业相关的物种中。对于lncRNA的特征得出了一致的结论:lncRNA数量丰富,表达量低,使其鉴定工作困难。
2. 植物中lncRNA的鉴定方法
一般来说,通过lncRNA大小(< 200 nt)、丰度(通常< 1 TPM)、与已知基因的相似性(使用rFAM和pFAM)以及ORF长度(> 100 AA)筛选lncRNA。虽然这种方法不完善,但有助于识别真核生物中许多功能重要的lncRNA。随着时间的推移,已经开发了基于先前识别的lncRNA特征的其他方法,以更好地确定什么是编码和非编码。在本节中,研究者总结了过去十年中开发的一些计算资源、算法和策略,以帮助lncRNA注释和功能预测(表1)。
表1. 基于RNA测序数据的用于鉴定lncRNA的算法以及流程方案
3. NGS时代,lncRNA鉴定面对的主要挑战
采样偏差:lncRNA通常被认为是类似mRNA的转录物。因此,大多数鉴定工作都对RNA的聚腺苷酸化(polyA)池进行了采样。然而,以polyA为重点的研究可能忽略了ncRNA转录组的一大部分,从而忽略了具有生物学意义的lncRNA。在动物中,有数千种非polyA非编码转录物不属于RNA的经典定义(rRNA、tRNA、sn/snoRNA)。因此研究者认为,为了以更完整的方式捕获植物转录组的非编码RNA部分,可能有必要将核糖缺失文库纳入RNA测序范畴。
低表达:用于lncRNA鉴定的未注释转录物通常是低表达的单外显子转录物,可能没有足够的数据来推断这些转录物是否符合lncRNA的定义。低表达并不等于功能缺失,lncRNA可能具有快速周转或在非常低的化学计量下具有功能。但低表达使得在算法上很难将lncRNA与来自深度测序的转录噪声进行区分。为了解决这个问题,一些研究者建议过滤掉单外显子转录物。但这一方法在较小的基因组(如拟南芥)中效果不佳,并且没有考虑植物中大量功能性的单外显子lncRNA。总之,需要在多个实验和生物重复中鉴定高置信度的lncRNA,并且应实现在特定情况下lncRNA的诱导表达。
缺乏序列保守性:植物lncRNA在进化上更不稳定,明显的进化半衰期比脊椎动物短得多。对于大多数植物lncRNA来说,即使在亲缘关系密切的物种中也很难找到序列同源物。此外,同源性不一定与共线性(同线性)一致。有趣的是,即使是保守的lncRNA,也很少通过植物家族外基于序列的同源性搜索来识别,而是需要更详细的共同变异和基于结构的同源性推断模型。因此,植物lncRNA可分为至少三个类别:1)物种特异性lncRNA,它们似乎构成了lncRNA种群的大多数;2)具有位置保守性的lncRNA,其序列保守程度低,数量较少;3)序列保守的lncRNA,数量非常少。这三个类别可能与功能机制和生物学意义有关,并将有助于指导未来对植物lncRNA的探索。
缺乏对于lncRNA的一般定义:在为植物lncRNA社区服务的存储库中,围绕lncRNA的共同定义进行合并的困难甚至是显而易见的。在过去五年中,已经开发了三个全面的植物特异性lncRNA数据库(GreeNC, PLncDB和CANTADB),在近100个物种中拥有超过100万个lncRNA。由于在lncRNA定义、鉴定策略以及过滤标准存在差异,不同数据库之间缺乏协调,难以进行比较。
文章来源:植物生物技术Pbj