PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP

近日,Plant Biotechnology Journal杂志在线发表了由广东省农业科学院水稻所生信与大数据育种团队联合桂林电子科技大学团队撰写的“Genomic prediction with NetGP based on gene network and multi-omics data in plants”论文。提出了一种创新的基于基因网络和多组学数据的植物基因组预测方法。研究中,团队提出了一种新的特征提取方法(PCS),能够有效筛选与目标性状相关且独立的SNP特征,提升预测精度。同时,结合基因网络与深度学习技术,设计了新的图卷积层和基因网络层,能够处理基因组和转录组数据,挖掘基因网络中的复杂模式。研究还验证了该方法在花生和玉米等其他物种中的应用,取得了显著的预测精度提升。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

近年来,植物性状的形成受到基因与环境交互作用的影响,如何精准筛选目标性状成为作物遗传育种的关键问题(Becker et al., 2023; Guo and Li, 2023; Napier et al., 2023; Priya et al., 2023)。基因组预测(GP)和基因组选择(GS)作为创新的育种策略,通过全基因组分子标记和组学数据建立预测模型,评估个体表型和基因组估计育种值(GEBV),可加速育种进程(Bhat et al., 2016; Budhlakoti et al., 2022; Cabrera‐Bosquet et al., 2012)。然而,现有的统计模型(如GBLUP、rrBLUP、Bayes A等)在处理基因-基因(G×G)和基因-环境(G×E)互作时存在计算复杂度高的问题(Ramstein and Casler, 2019; Wang et al., 2018)。近年来,深度学习(DL)作为一种强大的数据驱动方法,凭借其高效的模式学习能力,在基因组预测中展现出较传统方法更优的预测精度(Angermueller et al., 2016; Ma et al., 2018; Ma et al., 2024; Min et al., 2017; Ren et al., 2024; Wang et al., 2023)。但深度学习在育种中的应用仍面临模型可解释性差和过拟合等挑战(Montesinos-López et al., 2021)。广东省农业科学院水稻所生信与大数据育种团队联合桂林电子科技大学团队提出了一组基于深度学习的优化模型,将基因组、转录组和基因网络结合,提升了植物性状的预测精度。该方法有效克服了传统方法的局限,为基因组选择及多组学预测提供了新的思路。全文主要研究结果如下:
1. 皮尔逊共线性特征选择

研究者提出了一种新的特征选择方法——皮尔逊共线性特征选择(PCS),旨在减少数据冗余并避免多重共线性,选择与目标性状高度相关的特征。展示原始数据的多重共线性(1A)和特征重要性情况(1D),分别使用连锁不平衡(LD)、PCS方法进行特征选择,分别得到LD(1B)和PCS的多重共线性图 (1C)、LD(1E)和PCS的特征重要性图(1F)。通过对比分析,PCS方法有效减少了特征之间的冗余性和多重共线性,保留了与目标性状相关性更强的特征;在基因相互作用的考虑下,PCS方法去除了相关基因对中的一个SNP,并与未经处理的数据集进行了比较(1G);同时也验证了该方法在不同人群中的预测性能(1H-1I)。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

图1. 特征处理对相关性、多重共线性和预测性能的影响图

2. 验证PCS特征选择方法的性能

为了验证PCS方法对不同预测模型的影响,研究团队使用了主成分分析(PCA)、LD两种特征选择方法作为对比,分别应用于七种常用的机器学习模型,包括DeepGS(图2A)、DNNGP(图2B)、GenNet(图2C)、LightGBM(图2D)、rrBLUP(图2E)、RF(图2F)和SVM(图2G)。通过这些模型的表现对比,分析了三种特征选择方法在不同模型中的预测精度和稳定性,进一步验证了PCS方法在提升模型预测准确性和稳定性方面的优势。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

图2. 不同特征选择方法对各模型影响比较图

3. NetGP模型

研究者设计了两个模块——扩展图卷积网络(Extended GCN)(3A)和基因网络(GN)(3B),用于开发名为NetGP的基因网络模型,包括基因组预测模型 (3C)、转录组预测模型 (3D)和多组学预测模型 (3F)。每个模型由多个单元组成,能够在不同层次上学习复杂模式:

  • NetGP (SNP) 包括一个GN层、两个全连接层和一个批归一化(BN)层。
  • NetGP (Trans) 包括两个扩展GCN层、一个展平层、两个全连接层和一个BN层。
  • NetGP (Trans + SNP) 结合了一个GN层、两个扩展GCN层、三个全连接层、两个展平层和一个BN层。

GN层负责从SNP数据中提取特征,Extended GCN层则处理基因表达数据。BN层用于处理特征间的协方差变化,展平操作融合了SNP和基因表达数据。通过自学习的融合参数调整特征权重以优化性能。同时,模型采用早停机制避免过拟合,并使用ReLU激活函数加速学习过程,提升收敛速度。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

图3. 模型的框架图

4. 验证NetGP性能

为了全面评估NetGP的预测性能,研究者采用了华中农业大学RiceVarMap群体的11个水稻性状数据进行预测,并与七种经典模型在基因组数据(图4A)和转录组数据(图4B)上的表现进行了对比。此外,研究还进一步比较了单组学(基因组和转录组)与多组学(结合基因组与转录组数据)的预测效果(图4C),以验证多组学方法在提升预测精度方面的优势。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

图4. 模型预测精度比较图

5. 不同基因网络条件下分析

为了评估基因网络对模型性能的影响,研究者使用了多个高质量的水稻基因网络作为参考,包括基因功能关联网络(RiceNet)、基因相互作用网络(STRING)、加权基因共表达网络(GCN)以及来自不同组织(如根、叶和种子)的基因调控网络(GRN)。这些七个网络(RiceNet、STRING、GCN_seed、GCN_leaf、GCN_root、GRN_seed、GRN_root)被用来分析和评估NetGP (Trans)(5A)和NetGP (Trans+SNP)模型(5B)。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》
图5. 不同基因网络模型预测比较图

6. 检验模型的泛化能力

为了验证模型的泛化能力,研究者使用了来自不同物种(花生、拟南芥、西红柿和土豆)的数据,使用NetGP(SNP)模型进行基因组预测, NetGP(Trans+SNP)模型进行多组学预测,并采用7种经典模型(DNNGP、DeepGS、GenNet、LightGBM、RF、rrBLUP和SVM)进行基因组预测的对比分析。

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》

图6. 不同物种的模型预测比较图

这篇文章介绍了基因组预测(GP)中的新方法。传统的基因组预测模型无法充分反映基因型和性状之间复杂的非线性关系,因此本文提出了一种基于皮尔逊共线性选择(PCS)的SNP特征提取技术,有效提升了预测准确性。此外,文章还介绍了一个新的深度学习模型——NetGP。NetGP利用基因组数据、转录组数据以及多组学数据进行表型预测,表现优于传统的单一基因组或转录组模型。通过多个植物数据的测试,NetGP展示了良好的泛化能力。该本文提供了一种新的工具,帮助植物基因组表型预测,并为未来的植物育种研究提供了新的思路。
桂林电子科技大学赵龙阳副教授和硕士研究生汤萍、联合培养硕士生罗金晶为论文共同第一作者,广东省农业科学院水稻所刘琦研究员和桂林电子科技大学徐智教授为论文通讯作者,该研究得到了广东省农业科学院生物育种中心协同创新项目、广东省农业科学院水稻研究所优谷计划等项目资助。
论文链接:https://onlinelibrary.wiley.com/doi/10.1111/pbi.14577
Angermueller, C., Pärnamaa, T., Parts, L. and Stegle, O. (2016) Deep learning for computational biology. Molecular systems biology 12, 878.

Becker, C., Berthomé, R., Delavault, P., Flutre, T., Fréville, H., Gibot-Leclerc, S., Le Corre, V., Morel, J.-B., Moutier, N. and Munos, S. (2023) The ecologically relevant genetics of plant–plant interactions. Trends in Plant Science 28, 31-42.

Bhat, J.A., Ali, S., Salgotra, R.K., Mir, Z.A., Dutta, S., Jadon, V., Tyagi, A., Mushtaq, M., Jain, N. and Singh, P.K. (2016) Genomic selection in the era of next generation sequencing for complex traits in plant breeding. Frontiers in genetics 7, 221.

Budhlakoti, N., Kushwaha, A.K., Rai, A., Chaturvedi, K., Kumar, A., Pradhan, A.K., Kumar, U., Kumar, R.R., Juliana, P. and Mishra, D. (2022) Genomic selection: A tool for accelerating the efficiency of molecular breeding for development of climate-resilient crops. Frontiers in Genetics 13, 832153.

Cabrera‐Bosquet, L., Crossa, J., von Zitzewitz, J., Serret, M.D. and Luis Araus, J. (2012) High‐throughput phenotyping and genomic selection: The frontiers of crop breeding converge F. Journal of integrative plant biology 54, 312-320.

Guo, T. and Li, X. (2023) Machine learning for predicting phenotype from genotype and environment. Current Opinion in Biotechnology 79, 102853.

Ma, W., Qiu, Z., Song, J., Li, J., Cheng, Q., Zhai, J. and Ma, C. (2018) A deep convolutional neural network approach for predicting phenotypes from genotypes. Planta 248, 1307-1318.

Ma, X., Wang, H., Wu, S., Han, B., Cui, D., Liu, J., Zhang, Q., Xia, X., Song, P. and Tang, C. (2024) DeepCCR: large-scale genomics-based deep learning method for improving rice breeding. Plant Biotechnology Journal, 1-3.

Min, S., Lee, B. and Yoon, S. (2017) Deep learning in bioinformatics. Briefings in bioinformatics 18, 851-869.

Napier, J.D., Heckman, R.W. and Juenger, T.E. (2023) Gene-by-environment interactions in plants: Molecular mechanisms, environmental drivers, and adaptive plasticity. The Plant Cell 35, 109-124.

Priya, P., Patil, M., Pandey, P., Singh, A., Babu, V.S. and Senthil‐Kumar, M. (2023) Stress combinations and their interactions in plants database: a one‐stop resource on combined stress responses in plants. The Plant Journal 116, 1097-1117.

Ramstein, G.P. and Casler, M.D. (2019) Extensions of BLUP models for genomic prediction in heterogeneous populations: application in a diverse switchgrass sample. G3: Genes, Genomes, Genetics 9, 789-805.

Ren, Y., Wu, C., Zhou, H., Hu, X. and Miao, Z. (2024) Dual-Extraction Modeling: A multimodal deep learning architecture for phenotypic prediction and functional gene mining of complex traits. Plant Communications.

Wang, J., Zhou, Z., Zhang, Z., Li, H., Liu, D., Zhang, Q., Bradbury, P.J., Buckler, E.S. and Zhang, Z. (2018) Expanding the BLUP alphabet for genomic prediction adaptable to the genetic architectures of complex traits. Heredity 121, 648-662.

Wang, K., Abid, M.A., Rasheed, A., Crossa, J., Hearne, S. and Li, H. (2023) DNNGP, a deep neural network-based method for genomic prediction using multi-omics data in plants. Molecular Plant 16, 279-293.

图文来源:植物生物技术Pbj

《PBJ | 广东农科院刘琦团队联合多家单位开发基于多组学数据和基因网络的植物表型预测模型NetGP》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注