近日,Plant Biotechnology Journal杂志在线发表了由广东省农业科学院水稻所生信与大数据育种团队联合桂林电子科技大学团队撰写的“Genomic prediction with NetGP based on gene network and multi-omics data in plants”论文。提出了一种创新的基于基因网络和多组学数据的植物基因组预测方法。研究中,团队提出了一种新的特征提取方法(PCS),能够有效筛选与目标性状相关且独立的SNP特征,提升预测精度。同时,结合基因网络与深度学习技术,设计了新的图卷积层和基因网络层,能够处理基因组和转录组数据,挖掘基因网络中的复杂模式。研究还验证了该方法在花生和玉米等其他物种中的应用,取得了显著的预测精度提升。
研究者提出了一种新的特征选择方法——皮尔逊共线性特征选择(PCS),旨在减少数据冗余并避免多重共线性,选择与目标性状高度相关的特征。展示原始数据的多重共线性(1A)和特征重要性情况(1D),分别使用连锁不平衡(LD)、PCS方法进行特征选择,分别得到LD(1B)和PCS的多重共线性图 (1C)、LD(1E)和PCS的特征重要性图(1F)。通过对比分析,PCS方法有效减少了特征之间的冗余性和多重共线性,保留了与目标性状相关性更强的特征;在基因相互作用的考虑下,PCS方法去除了相关基因对中的一个SNP,并与未经处理的数据集进行了比较(1G);同时也验证了该方法在不同人群中的预测性能(1H-1I)。
图1. 特征处理对相关性、多重共线性和预测性能的影响图
为了验证PCS方法对不同预测模型的影响,研究团队使用了主成分分析(PCA)、LD两种特征选择方法作为对比,分别应用于七种常用的机器学习模型,包括DeepGS(图2A)、DNNGP(图2B)、GenNet(图2C)、LightGBM(图2D)、rrBLUP(图2E)、RF(图2F)和SVM(图2G)。通过这些模型的表现对比,分析了三种特征选择方法在不同模型中的预测精度和稳定性,进一步验证了PCS方法在提升模型预测准确性和稳定性方面的优势。
图2. 不同特征选择方法对各模型影响比较图
研究者设计了两个模块——扩展图卷积网络(Extended GCN)(3A)和基因网络(GN)(3B),用于开发名为NetGP的基因网络模型,包括基因组预测模型 (3C)、转录组预测模型 (3D)和多组学预测模型 (3F)。每个模型由多个单元组成,能够在不同层次上学习复杂模式:
- NetGP (SNP) 包括一个GN层、两个全连接层和一个批归一化(BN)层。
- NetGP (Trans) 包括两个扩展GCN层、一个展平层、两个全连接层和一个BN层。
- NetGP (Trans + SNP) 结合了一个GN层、两个扩展GCN层、三个全连接层、两个展平层和一个BN层。
GN层负责从SNP数据中提取特征,Extended GCN层则处理基因表达数据。BN层用于处理特征间的协方差变化,展平操作融合了SNP和基因表达数据。通过自学习的融合参数调整特征权重以优化性能。同时,模型采用早停机制避免过拟合,并使用ReLU激活函数加速学习过程,提升收敛速度。
图3. 模型的框架图
为了全面评估NetGP的预测性能,研究者采用了华中农业大学RiceVarMap群体的11个水稻性状数据进行预测,并与七种经典模型在基因组数据(图4A)和转录组数据(图4B)上的表现进行了对比。此外,研究还进一步比较了单组学(基因组和转录组)与多组学(结合基因组与转录组数据)的预测效果(图4C),以验证多组学方法在提升预测精度方面的优势。
图4. 模型预测精度比较图
为了评估基因网络对模型性能的影响,研究者使用了多个高质量的水稻基因网络作为参考,包括基因功能关联网络(RiceNet)、基因相互作用网络(STRING)、加权基因共表达网络(GCN)以及来自不同组织(如根、叶和种子)的基因调控网络(GRN)。这些七个网络(RiceNet、STRING、GCN_seed、GCN_leaf、GCN_root、GRN_seed、GRN_root)被用来分析和评估NetGP (Trans)(5A)和NetGP (Trans+SNP)模型(5B)。
为了验证模型的泛化能力,研究者使用了来自不同物种(花生、拟南芥、西红柿和土豆)的数据,使用NetGP(SNP)模型进行基因组预测, NetGP(Trans+SNP)模型进行多组学预测,并采用7种经典模型(DNNGP、DeepGS、GenNet、LightGBM、RF、rrBLUP和SVM)进行基因组预测的对比分析。
图6. 不同物种的模型预测比较图
Becker, C., Berthomé, R., Delavault, P., Flutre, T., Fréville, H., Gibot-Leclerc, S., Le Corre, V., Morel, J.-B., Moutier, N. and Munos, S. (2023) The ecologically relevant genetics of plant–plant interactions. Trends in Plant Science 28, 31-42.
Bhat, J.A., Ali, S., Salgotra, R.K., Mir, Z.A., Dutta, S., Jadon, V., Tyagi, A., Mushtaq, M., Jain, N. and Singh, P.K. (2016) Genomic selection in the era of next generation sequencing for complex traits in plant breeding. Frontiers in genetics 7, 221.
Budhlakoti, N., Kushwaha, A.K., Rai, A., Chaturvedi, K., Kumar, A., Pradhan, A.K., Kumar, U., Kumar, R.R., Juliana, P. and Mishra, D. (2022) Genomic selection: A tool for accelerating the efficiency of molecular breeding for development of climate-resilient crops. Frontiers in Genetics 13, 832153.
Cabrera‐Bosquet, L., Crossa, J., von Zitzewitz, J., Serret, M.D. and Luis Araus, J. (2012) High‐throughput phenotyping and genomic selection: The frontiers of crop breeding converge F. Journal of integrative plant biology 54, 312-320.
Guo, T. and Li, X. (2023) Machine learning for predicting phenotype from genotype and environment. Current Opinion in Biotechnology 79, 102853.
Ma, W., Qiu, Z., Song, J., Li, J., Cheng, Q., Zhai, J. and Ma, C. (2018) A deep convolutional neural network approach for predicting phenotypes from genotypes. Planta 248, 1307-1318.
Ma, X., Wang, H., Wu, S., Han, B., Cui, D., Liu, J., Zhang, Q., Xia, X., Song, P. and Tang, C. (2024) DeepCCR: large-scale genomics-based deep learning method for improving rice breeding. Plant Biotechnology Journal, 1-3.
Min, S., Lee, B. and Yoon, S. (2017) Deep learning in bioinformatics. Briefings in bioinformatics 18, 851-869.
Napier, J.D., Heckman, R.W. and Juenger, T.E. (2023) Gene-by-environment interactions in plants: Molecular mechanisms, environmental drivers, and adaptive plasticity. The Plant Cell 35, 109-124.
Priya, P., Patil, M., Pandey, P., Singh, A., Babu, V.S. and Senthil‐Kumar, M. (2023) Stress combinations and their interactions in plants database: a one‐stop resource on combined stress responses in plants. The Plant Journal 116, 1097-1117.
Ramstein, G.P. and Casler, M.D. (2019) Extensions of BLUP models for genomic prediction in heterogeneous populations: application in a diverse switchgrass sample. G3: Genes, Genomes, Genetics 9, 789-805.
Ren, Y., Wu, C., Zhou, H., Hu, X. and Miao, Z. (2024) Dual-Extraction Modeling: A multimodal deep learning architecture for phenotypic prediction and functional gene mining of complex traits. Plant Communications.
Wang, J., Zhou, Z., Zhang, Z., Li, H., Liu, D., Zhang, Q., Bradbury, P.J., Buckler, E.S. and Zhang, Z. (2018) Expanding the BLUP alphabet for genomic prediction adaptable to the genetic architectures of complex traits. Heredity 121, 648-662.
Wang, K., Abid, M.A., Rasheed, A., Crossa, J., Hearne, S. and Li, H. (2023) DNNGP, a deep neural network-based method for genomic prediction using multi-omics data in plants. Molecular Plant 16, 279-293.
图文来源:植物生物技术Pbj
