诺奖级工具AlphaFold在研究中的应用

本文内容速览:

《诺奖级工具AlphaFold在研究中的应用》

AlphaFold的相关背景

蛋白质是生命活动的主要承担者,而蛋白质正常的结构是其发挥功能的关键,深入了解蛋白质的结构可以解释生命活动的机制。因此,蛋白质结构解析一直以来是研究者所关注的重点,诺贝尔奖也一直青睐于蛋白结构解析的研究,例如胰岛素一级结构的解析和ATP酶结构的解析等。目前解析蛋白质结构的主要手段有X射线晶体学、冷冻电子显微镜技术和核磁共振波谱,但由于蛋白样品制备困难和蛋白质结构复杂等多方面原因,目前蛋白质结构解析的进度较慢。
AlphaFold是由DeepMind公司所开发的一系列人工智能(AI)程序,主要用于蛋白质空间结构的预测。可能有些人对AlphaFold比较陌生,但说起AlphaGo(阿尔法狗),估计大家都有所耳闻,AlphaGo曾经战胜过包括世界围棋冠军柯洁在内的多个职业围棋高手。有意思的是,AlphaGo也是DeepMind的研究产物。AlphaFold在参加国际蛋白质结构预测大赛(CASP)时一直遥遥领先,这是因为它可以在非常短的时间内较为准确地预测出蛋白质的结构。基于蛋白质结构预测领域的突破性进展,近日,瑞典皇家科学院将今年的诺贝尔化学奖授予了David Baker和DeepMind的Demis Hassabis、John Jumpe,以表彰他们在蛋白质设计及结构预测方面作出的贡献。此外,今年的诺贝尔物理学奖授予了AI领域的John Hopfield和Geoffrey Hinton,以表彰他们通过人工神经网络实现机器学习的基础性发现和发明。有意思的是,AlphaFold也利用了人工神经网络。此外,近年很火热的对话生成器ChatGPT也利用了这一技术。
为何AlphaFold能实现精准预测
事实上,从人类试图通过计算机预测蛋白质结构以来,各种计算机预测工具层出不穷,但为什么AlphaFold能力压一众工具,登上蛋白质结构预测的冠军宝座?要知道第一代AlphaFold诞生于2018年,初次参加CASP就大放光彩,预测的成绩远远甩开第二名。在解释内在原因之前,先给大家介绍一下蛋白质结构预测的方式。目前预测的方法有两种,分别是同源建模(Template-Based Modeling,TBM)和从头计算(Template-Free Modeling,FM)。简单来说,这两种方法的区别在于,TBM是以与待预测蛋白有同源性的已知结构的蛋白为模板构建初步模型,再进一步完善,而FM则针对没有参考的蛋白结构预测,通过计算机预测氨基酸序列的二级结构,再生成可能的三维构象,对这些构象进行评估以及优化后得出最有可能的结构。可想而知,对于一些比较大且复杂的蛋白,FM的准确度远远不如TBM。然而随着AI的发展,FM的瓶颈得到了突破,AlphaFold正是最好的案例。

总结AlphaFold实现精准预测的原因,主要有以下几点:(一)深度学习。AlphaFold使用人工神经网络直接学习序列和结构之间的复杂关系,而传统的工具多依赖于物理模型或简单的机器学习。(二)多序列比对(MSA)。有些传统工具虽然也能利用MSA提取氨基酸的保守信息,从而帮助预测蛋白质局部的二级结构,但这难以推测远距离残基之间的相互作用,而AlphaFold可以深度学习MSA并获得氨基酸序列之间的协同变化(即一个位置的变化会导致另一个位置的变化)。(三)迭代优化。传统工具在完成蛋白结构的初步预测后,对结构的优化通常是局部且单次的。AlphaFold可以反复利用上一次的结构,进一步的微调氨基酸的残基接触以及角度等。正是由于这种迭代,可以让预测出来的蛋白结构更接近真实自然的状态。(四)端到端的预测架构。简单来说就是AlphaFold采用了一种从序列输入到预测结构输出的整体架构,这样可以减少多个独立步骤组合导致的误差积累。除了以上几点主要原因之外,AlphaFold实现精准预测也离不开基于大量已有的蛋白数据的模型训练。此外,DeepMind对AlphaFold的持续优化和更新也是其预测能力不断提高的重要因素,截至目前AlphaFold已经更新到了第三代。AlphaFold 3在前几代的基础上不仅进一步提高了预测的精准度,而且还能够实现蛋白与其他物质,如小分子、蛋白、核酸等的相互作用。

AlphaFold在实际研究中的应用

前文提到,目前AlphaFold已经发展到第三代,但由于AlphaFold 3是在今年五月刚刚发布,植物领域的相关研究还较为稀缺。不过,AlphaFold 2的升级版——AlphaFold-Multimer(专用于预测蛋白质间的相互作用)已有不少实际应用,后续小远将为大家介绍相关文献案例。在此之前,先来分享一下AlphaFold 3在Nature上的问世之作。

2024年5月8日,DeepMind公司在Nature杂志上发表了一篇题为“Accurate structure prediction of biomolecular interactions with AlphaFold 3”的研究论文,该研究介绍了AlphaFold系列工具的最新版本AlphaFold 3。该研究称,在前代工具的基础上,AlphaFold 3进一步提升了预测精度(图1G、H),此外还能够联合预测包括蛋白质核酸小分子离子修饰残基在内的复合物的结构。

《诺奖级工具AlphaFold在研究中的应用》

图1 AlphaFold 3的应用场景及预测准确度(Josh et al., 2024)。(A)人类40S小核糖体亚基(紫色)翻译起始因子eIF1A和eIF5B形成复合物(蓝色);(B)EXTL3同型二聚体的糖基化球状部分;(C)间皮素C末端与单克隆抗体15B6结合(绿色为预测的抗体);(D)抑制剂LGK974与PORCN结合并与WNT3A肽形成复合物;(E)(5S,6S)-O7-磺基DADH与AziU3/U2复合物结合;(F)NIH-12848类似物与PI5P4Kγ的变构位点结合;(A-F)灰色的部分表示实际的结构,彩色部分为预测的结构;(G)AlphaFold 3在蛋白质-小分子配体结构预测、蛋白质-核酸复合物结构预测、共价修饰以及蛋白与蛋白复合物预测方面的预测效果;(H)AlphaFold 3各种类型预测的准确度评估,数值ipTM和pLDDT数值越高表示准确度越高。

由于AlphaFold 3强大的功能,已经有相关研究使用了该工具。2024年10月,中国科学院分子植物科学卓越创新中心赵杨课题组在The EMBO Journal杂志上发表了一篇题为“Osmotic signaling releases PP2C-mediated inhibition of Arabidopsis SnRK2s via the receptor-like cytoplasmic kinase BIK1”的研究论文。在前期实验中,作者发现渗透胁迫下,拟南芥中BIK1可以磷酸化SnRK2s并将其从SnRK2.6-PP2C复合体中释放出来,之后SnRK2s向下传递胁迫信号。为了进一步探索这种磷酸化介导的SnRK2s释放的原因,作者通过AlphaFold 3预测SnRK2s磷酸化前后与ABI1(PP2C家族成员之一)的互作情况,结果发现SnRK2s磷酸化破坏了与ABI1互作的模型,结合文章前期的实验数据综合说明SnRK2s可能因此从复合体中被释放出来(图2)。

《诺奖级工具AlphaFold在研究中的应用》

图2 AlphaFold 3预测SnRK2s磷酸化前后与ABI1互作的情况(Li et al., 2024)。

2024年7月,南京农业大学王源超课题组在Molecular Plant杂志上发表了一篇题为“AlphaFold-guided redesign of a plant pectin methylesterase inhibitor for broad-spectrum disease resistance”的研究论文。作者在前期研究中发现疫霉菌侵染大豆时,GmPMI1(果胶甲酯酶抑制蛋白)可以阻止疫霉菌分泌的PsPME1(果胶甲酯酶)对大豆细胞壁的破坏,但GmPMI1的过表达又使植株难以兼顾生长发育和防御反应之间的平衡(因为GmPMI1与自身GmPME1也会互作,相当于攻击病原菌的同时也限制了自身的正常生长),因此作者通过AlphaFold-Multimer工具重新设计了GmPMI1蛋白,替换了原蛋白序列中的9个氨基酸,并命名为GmPMI1R,改造后的蛋白GmPMI1R与GmPME1的互作强度减弱,但不会与PsPME1的互作强度并不会减弱(图3A-G),同样地,Co-IP也得出相同的结论(图3H),这也使得正常情况下过表达GmPMI1R并不会影响大豆自身细胞壁的果胶甲酯化程度。该研究充分展现了AlphaFold工具的辅助为加快植物保护策略的发展提供了一种新思路。

《诺奖级工具AlphaFold在研究中的应用》

图3 通过AlphaFold辅助改造GmPMI1(Xia et al., 2024)。(A-G)GmPMI1突变9个氨基酸后改造为GmPMI1R,AlphaFold-Multimer预测了GmPMI1改造前后与GmPME1和PsPME1的互作情况,互作界面的氢键越少则互作越弱;(H)通过Co-IP验证GmPMI1改造前后与GmPME1和PsPME1的互作情况;(I)通过MST(微量热泳动)验证GmPMI1R与PsPME1的结合情况。

2023年12月,斯坦福Carnegie研究所王志勇课题组与南方科技大学郭红卫/姜凯课题组联合在The Plant Cell杂志上发表了一篇题为“Structure-based virtual screening identifies small molecule inhibitors of O-fucosyltransferase SPINDLY”的研究论文。由于蛋白质的O-糖基化是一种重要的蛋白质翻译后修饰,对糖信号传导有着关键作用,而拟南芥中SPINDLY(SPY)介导了O-岩藻糖基化修饰,因此为了研究SPY的功能及相关的生物学过程,开发靶向SPY的化学抑制剂就十分重要。该研究中,作者通过AlphaFold工具预测了SPY的结构并筛选了能与之结合的小分子化合物,最后从候选小分子化合物中选择了SOFTI(图4A、B)。后续实验证明SOFTI可以有效的抑制SPY自身的O-岩藻糖基化(图4C)。该研究进一步说明了AlphaFold可以有效地辅助开发蛋白抑制剂。

《诺奖级工具AlphaFold在研究中的应用》

图4 通过AlphaFold辅助开发特定蛋白的抑制剂(Aizezi et al., 2023)。

以上内容中,小远给大家介绍了AlphaFold 3和上一代工具的相关应用案例,涉及蛋白与蛋白的互作预测、蛋白翻译后修饰蛋白的预测以及蛋白与化学小分子的互作预测筛选。由于暂时没有找到植物学领域有关蛋白与核酸及离子的互作预测文献案例,所以此处就暂不介绍,不过相信不久后会有相关的文章发表,届时大家可以关注一下。虽然仅介绍了这几个案例,不过相信大家对AlphaFold的强大功能已经有了深刻的体会,仅凭借计算机程序就可以拿到媲美实际实验的结果,这无疑大大缩减了科研所需的时间,极大地加速了蛋白结构相关领域研究的发展。
AlphaFold 3实际操作及结果解读
虽然AlphaFold 3带有商业性质,但是DeepMind还是推出了线上版本供科学研究使用(网址https://alphafoldserver.com/),不过一天有20次的使用限制。为了给大家进一步展示实际操作,小远从SoyBase数据库中下载了前述文献中的GmPMI1与GmPME1的氨基酸序列,拟通过AlphaFold 3进行两个蛋白的分子对接。

打开上面提到的的网址,点击“Server”即可进入AlphaFold 3操作的主页面。刚进去只有一个输入框,点击“Add entity”可以添加一个输入框。输入框左侧的“Molecule type”可以选择输入的项目类型,此处要输入氨基酸序列,所以选择“Protein”即可。“Protein”右侧的“Copies”表示输入的分子的个数,两个蛋白的分子对接就默认选择“1”即可。以上步骤完成后点击下方的“Continue and preview job”就可以开始进行分子对接,等待几分钟后在下方即可看到完成的任务,这时点击一下就可以看到对接后的结果。
《诺奖级工具AlphaFold在研究中的应用》
图5 使用AlphaFold 3进行蛋白分子对接的序列输入步骤。
《诺奖级工具AlphaFold在研究中的应用》
图6 AlphaFold 3预测结果解读。打开预测完的界面就可以看到三个部分的内容(图6)。当然这里看到的结果图比较初始,有时我们在文章中看到的图并不是这样,因为这里的结果我们可以下载下来,再用PyMOL等工具进行进一步的美化,这里大家就自行探索一下哦。

第一部分是最上面的一些预测打分的说明及当前结构的打分值。plDDT指的是每个原子的置信度估计,简单来说就是打分值越高就表示该位置预测的可信度越高,从图6左下侧的结构图来看就是越蓝越准确,一般来说这个打分值高于70就说明对应的结构预测的比较可靠。pTM为整个复合物结构预测的可信度打分,这个打分值高于0.5就说明整体结构比较可靠。ipTM表示对接界面的可信度打分,这个打分值大于0.8就说明对接的可信度比较高。

第二部分是左下侧两个蛋白分子对接的结构(由于此处GmPMI1与GmPME1的序列来源与前述的原文不同,且使用的AlphaFold版本不同,所以结构有些差别)。

第三部分是右下侧的PAE矩阵。该结果是对预测复合物中各结构的相对位置的误差估计,简单说就是在某个残基上对齐时,另外一个残基位置的误差,该数值越小表示误差越小。

对接可信度主要看的还是plDDT、pTM和ipTM这几个指标,以GmPMI1与GmPME1的对接来看,首先整个结构中的氨基酸残基plDDT打分基本上都高于70,另外pTM高达0.7说明整体结构可信度较高,ipTM的值也达到了0.78,这说明对接的也比较准确。

另外需要注意的是,虽然AlphaFold 3的预测准确度已经很高,但是也不是百分之百的准确,就像做实验时会存在假阳性和假阴性的结果,分值高不能说明实际两个或多个分子间一定有互作,分值低也不能说明实际两个或多个分子间一定没有互作,所以后期需要通过多个实验验证实验结果,这样才会更可靠。
AlphaFold存在的问题
任何一个实验方法或多或少都有其局限性,哪怕是最新版本的AlphaFold 3也是如此。首先是支持的修饰类型、离子类型以及配体类型的数目是有限的,这说明有时候这些相关的预测可能无法实现。

此外,还有几个问题在前面分享过的“Accurate structure prediction of biomolecular interactions with AlphaFold 3”文章中作者也曾提到,AlphaFold 3有时候会找错手性(化学中的概念,即两个分子镜像对称),这时常发生在蛋白与核酸的复合物中,这说明我们在实际使用时也要注意可能有时蛋白与核酸对接的结构可能并不准确。

另外,对于相分离的蛋白来说,通常会有一段无序区,这段区域通常是属于未折叠的状态,而AlphaFold 3总倾向于将其预测为折叠后的结构,小远猜测其原因可能是相分离在细胞内是一个动态的过程,这种过程对于AlphaFold 3来说很难通过计算机程序去预先考虑到,即使AlphaFold 3能够从已知的蛋白结构中学习氨基酸之间潜在的联系。不过,作者发现AlphaFold 2 在这方面的预测效果要稍好,所以可能会考虑将其结合到AlphaFold 3中。

最后,还是刚才提到的问题,蛋白质的结构有时在细胞内可能并不是唯一的,而是动态变化的。即使AlphaFold 3在预测时会给出多种可能的结果,但可能仍会存在遗漏的情况。就像颜宁院士在其微博上提到,就算AlphaFold很火热,但是对于一些动态变化来说,依旧是研究的瓶颈。
小远叨叨
全文到此,从AlphaFold的诞生到原理再到实际应用和存在的问题,算是给大家从前到后简要叙述了一遍,也算是蹭着诺奖的热度。不过小远更希望的是AlphaFold能像AlphaGO一样有那么高的热度,能让蛋白领域的研究被更多研究者以外的人知道,最终也能推动生命科学领域的发展。最后,小远觉得,AlphaFold就算那么厉害能预测到人类暂未看到的东西,但是其底盘还是依赖于人工神经网络的深度学习,而人工神经网络就是基于人脑神经元的灵感开发出来的,所以说再强的工具也强不过我们的大脑,工具也永远只是我们进步的手段,我们不应该过分的依赖工具,CNS的ideas也都是人脑想出来的不是嘛!
References:
Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3[J]. Nature, 2024: 1-3.
Aizezi Y, Zhao H, Zhang Z, et al. Structure-based virtual screening identifies small-molecule inhibitors of O-fucosyltransferase SPINDLY in Arabidopsis[J]. The Plant Cell, 2024, 36(3): 497-509.
Li G J, Chen K, Sun S, et al. Osmotic signaling releases PP2C-mediated inhibition of Arabidopsis SnRK2s via the receptor-like cytoplasmic kinase BIK1[J]. The EMBO Journal, 2024: 1-28.
Xia Y, Sun G, Xiao J, et al. AlphaFold-guided redesign of a plant pectin methylesterase inhibitor for broad-spectrum disease resistance[J]. Molecular Plant, 2024, 17(9): 1344-1368.
 
图文来源:伯远生物公众号
《诺奖级工具AlphaFold在研究中的应用》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注