科技的温情——挽救鼠鼠/兔兔的生命

本文内容速览:

《科技的温情——挽救鼠鼠/兔兔的生命》

相关背景

小肽与微抗体
在生物科技领域,抗体设计被誉为精准医疗的基石。它允许科学家们利用免疫系统的力量,精确对抗疾病。通过深入理解抗体结构,并结合现代生物工程手段,研究人员能够创造出针对特定抗原的高度特化抗体,用于疾病治疗和预防。

然而,传统抗体生产虽然成就显著,却也暴露出一些固有局限性。首先,传统抗体的生产高度依赖于哺乳动物细胞系统。这一过程不仅成本高昂、耗时较长,还受限于培养条件与生物反应器的技术瓶颈,难以实现大规模生产。其次,即便是同一批次的传统抗体生产,也难以避免批次间微小差异的存在。这些不一致性源于生物体系内的自然变异、培养条件的微调以及收获和纯化过程中的技术波动。再次,传统抗体因其复杂的三级和四级结构,在特定条件下容易发生变性或降解,这限制了其在某些环境下的有效性和长期储存能力。

正是在探索克服这些挑战的过程中,科学家们将目光转向了自然界中一个小小的灵感——“小肽”(small peptides)。“小肽”这一类长度限定于150个氨基酸以下的多肽片段,自上个世纪以来便吸引了科学家们的浓厚兴趣。尽管其结构已被成功解析,并展现出独特的晶体形态,但对于它们在生物体内的具体功能及作用机制,至今仍有许多未解之谜等待着科学界的深入探究。

小肽的价值不仅在于填补了生物学知识空白,更在于其潜在的应用前景。近年来的一项研究成果(Okura et al., 2022)揭示了冠状病毒基因组中编码的alpha螺旋结构小肽片段,这些特定结构的小肽被发现对病毒感染过程具有调节作用,甚至在某些情况下能够抑制病毒活性。这一发现为理解病毒与宿主相互作用机制提供了新视角,并暗示了小肽可能作为抗病毒疗法的新兴方向。

微抗体(Fujiwara & Fujii, 2013)的概念正是源于对自然中小肽的深入研究与模仿。通过借鉴小肽的优点,科学家们设计出了一种新型免疫工具——微抗体。这些小巧的分子不仅保留了传统抗体识别特异抗原的能力,还拥有更佳的体内稳定性,以及更为经济高效的生产方式。
微抗体设计
接下来,我们的焦点将转向微抗体设计方法。骨架设计(backbone generation)是微抗体设计的第一步,旨在构建具备高度灵活性与稳定性的基础框架。这一过程可借助两种主流方法实现:

模板——通过精心筛选与分析,从PDB数据库数以万计的实验确定结构中,选择出适合用作微抗体骨架设计的模板,构建模板库(library)。模板库也可以用参数化设计(parametric groove design)的方式生成。也就是通过克里克螺旋方程(Grigoryan & DeGrado, 2011)设计具有沟槽(Groove)结构的模板。“沟槽”特指蛋白质-蛋白质相互作用界面(Protein-Protein Interface, PPI)中的一种关键几何形状,其对微抗体的结合特性与功能表现至关重要。
扩散法——扩散生成模型。2023年,美国华盛顿大学David Baker团队在Nature杂志上发表了一篇题为”De novo design of protein structure and function with RFdiffusion”的研究论文,在这篇文章中,作者提出使用扩散生成模型RFdiffusion设计蛋白质。RFdiffusion采用一种新颖的概率论视角,将骨架设计视为在高维空间中的随机游走过程。通过构建一个离散时间、连续状态的马尔科夫链,该模型能够逆向地模拟蛋白质折叠的熵增和能量景观探索,从而生成一系列既遵循物理化学原则又具备创新性的微抗体骨架。在这一过程中,RFdiffusion进一步引入了黎曼流形的概念,将其骨架构象视为SE(3)空间中的动态演化过程。通过定义适应于该几何结构的扩散算子,RFdiffusion能够在保持拓扑连贯性和生物力学稳定性的同时,探索微抗体骨架构象的多样性与可行性。
在确定了理想的骨架结构后,下一步是通过计算预测方法优化其氨基酸序列,也就是序列设计(sequence design)的方法ProteinMPNN(Dauparas et al., 2022)通过反向折叠(reverse folding)算法(Zhou et al., 2023)成为这一环节的关键技术。这里的“反向折叠”是指在已知蛋白质三维结构的情况下,逆向设计或计算出能够稳定折叠成该特定构象的氨基酸序列的过程。这些模型能够根据骨架的三维构象逆向推导最适配的序列,以达到增强结合亲和力、提高稳定性的目的。
设计出的微抗体结构与序列需要经过严格的验证,以确保设计的成功率。这一阶段采用了基于深度学习的蛋白质结构预测工具AlphaFold2。通过AF2complex评估微抗体与其靶标结合界面的质量,高于0.4的iScore表明二者之间的相互作用稳定可靠(Gao et al., 2022)。或通过ipTM+pTM>0.75标准,即AlphaFold Multimer(AFM)得到的ipTM(interface ptm)与pTM(predicted template modeling)综合评分超过0.75被视为结构预测结果准确可信的阈值(Homma et al., 2023)。
方法
在广泛涉猎相关领域并深入阅读大量文献之后,本文旨在为大家介绍扩散生成模型RFdiffusion算法的技术细节。以下将分别基于得分的扩散、刚体在三维空间中的旋转、李群与李代数、黎曼流形上基于得分的扩散等四个部分展开。
基于得分的扩散
扩散模型,能够用来生成蛋白质骨架。在训练阶段,不断向蛋白质骨架中添加噪声。在这个过程中,模型不断学习如何做逆向演算。这样在测试阶段,就能够从高斯分布开始逐步去除添加的噪声,最终得到清晰的蛋白质骨架。研究人员可以通过概率论中的维纳过程(Wiener’s Process)来量化和预测这些看似随机的变化。

《科技的温情——挽救鼠鼠/兔兔的生命》

图1 维纳过程。原图来自www.britannica.com。

维纳过程,作为概率论和随机分析领域的基石之一,提供了一种描述物体在时间序列中进行连续且无记忆随机移动的理想化模型。其核心特性可归纳为以下三点:

1.连续性:维纳过程中的路径是连续的,这意味着在任意两个时间点之间,物体的位置变化不会出现跳跃或断点,而是平滑过渡。

2.独立增量:该过程中任意两个非重叠时间间隔内的位置变动相互独立。换句话说,在给定起始与终止时刻间的时间序列里,当前时刻的状态仅由即时的随机扰动决定,不受历史路径影响。
3.正态分布:维纳过程在任意固定时间点的位置变化遵循高斯(或称正态)分布。这意味着随着时间推移,位置变动呈现出对称且集中于均值附近的概率密度函数,标准差则随时间线性增长。
维纳过程虽能完美捕捉随机游走的本质,但它仅局限于线性的、无摩擦的理想化场景。而现实世界中的现象往往复杂得多,它们不仅受到随机波动的影响,同时还受制于系统内部非线性动力学及外部环境的多重作用。正是在这种背景下,伊藤扩散过程(Ito diffusion process)应运而生。它将维纳过程作为核心构建模块,同时融入了更多维度的动力学因素和非线性的状态依赖,从而能够更准确、更全面地描述那些在现实世界中广泛存在的复杂随机现象。
《科技的温情——挽救鼠鼠/兔兔的生命》
图2 伊藤扩散过程。

伊藤扩散过程的核心在于其微分方程——伊藤引理(Ito’s Lemma),它将连续时间内的小概率事件和决定性变化结合在一起,允许模型同时考虑随机性和确定性的相互作用。它不仅展现了概率论与微积分在处理复杂随机现象时的精妙结合,更通过数学语言揭示了自然法则内在的美学。
伊藤扩散过程虽已将维纳过程拓展到能够描述更复杂、更具现实意义的动态场景,但其内在的数学表达——涉及路径依赖和时间连续性的随机微分方程(SDE)——带来了新的挑战。如何在这一框架下进行有效计算与预测?这便是伊藤积分所要解决的核心问题。
《科技的温情——挽救鼠鼠/兔兔的生命》
图3 伊藤积分。

伊藤积分是一种针对扩散过程的特定类型的随机积分,它允许研究人员对涉及随机变量(如维纳过程)的函数求导和积分。与传统微积分不同的是,伊藤积分考虑了由随机波动带来的额外“噪声”,从而能够更准确地描述那些在现实世界中广泛存在的、受随机因素影响的现象。

基于得分的扩散(score based diffusion modeling,SDM)(Song & Ermon, 2020)是RFdiffusion中用到的扩散模型。去噪概率扩散模型(denoising diffusion probablistic modeling,DDPM)(Ho et al., 2020)是文生图应用StableDiffusion中用到的扩散模型。两者统一在随机微分方程(SDE)框架(Song et al., 2021)中。这里的随机微分方程,指的就是伊藤扩散方程的微分形式。也就是伊藤引理中的形式。

《科技的温情——挽救鼠鼠/兔兔的生命》

图4 随机微分方程。

扩散过程,是一种随机过程(random process)。而随机过程的数学表示,主要体现在前向算法(forward algorithm)和后向算法(reverse algorithm)上。前向算法指在已知历史观测序列的前提下,计算当前时刻处于特定状态的概率。也就是添加噪声的过程。后向算法正好相反,指在已知未来观测序列的前提下,计算当前时刻处于特定状态的概率。也就是去除噪声的过程。
先来推SDM前向算法的公式。整理成与伊藤引理相同的形式。
《科技的温情——挽救鼠鼠/兔兔的生命》
图5 前向算法VE。

想要让Xt成为完全意义上的噪声,σ𝑡与X0的比值要趋于无穷大。因此,SDM又叫做Variance Exploding模型。
接着推DDPM前向算法的公式。
《科技的温情——挽救鼠鼠/兔兔的生命》
图6 前向算法DDPM。

想要让Xt成为完全意义上的噪声,只需要系数ā𝑡趋近于零。换言之,噪声的方差是有上界的。这个上界无限趋近于一。因此,DDPM又叫做Variance Preserving模型。

推完前向算法,接着推后向算法。

《科技的温情——挽救鼠鼠/兔兔的生命》

图7 后向算法一。

《科技的温情——挽救鼠鼠/兔兔的生命》

图8 后向算法二。

《科技的温情——挽救鼠鼠/兔兔的生命》

图9 后向算法三。
《科技的温情——挽救鼠鼠/兔兔的生命》
图10 后向算法四。
一般来说,对于一个随机过程,得出前向算法和后向算法,就结束了。比如,研究人员推出了扩散过程的前向算法和后向算法。偏移函数f(·)、扩散函数g(·)有两种不同的组合,SDM和DDPM。但是,到这里还有一个问题没有解决。就是概率的对数梯度这一项,应该怎样求解。p(Xt)指的是数据的真实分布。
《科技的温情——挽救鼠鼠/兔兔的生命》
图11 分数匹配一。原图来自jmtomczak.github.io。

万物皆可神经网络。于是,人们想训练一个神经网络Sθ(x)来估计对数梯度项。从这里开始,将神经网络Sθ(x)叫做score function。用重要性采样(importance sampling)的方法,使得score function接近对数梯度项。第二个问题,真实分布f(x)不可导(intractable)。那可以用一个可导的分布去近似它。最简单的就是正态分布。

《科技的温情——挽救鼠鼠/兔兔的生命》

图12 分数匹配二。

按说推到这一步,问题就全部解决了。但高斯函数具有一些比较好的性质。于是研究人员继续化简,看看高斯函数近似下的对数梯度项是否能化简成简单优美的形式。果然,对数梯度项最终化简为标准化后的高斯白噪声。

《科技的温情——挽救鼠鼠/兔兔的生命》

图13 分数匹配三。

至此,得到了完整的扩散模型。

《科技的温情——挽救鼠鼠/兔兔的生命》

图14 分数匹配四。原图来自jmtomczak.github.io。

刚体在三维空间中的旋转
因为氨基酸不是各向同性(isotropic)的化合物,所以在扩散的过程中,除平移(translation)外、还需要考虑旋转(rotation)。如果把氨基酸看作刚体,也就是在扩散的过程中形状和大小保持不变。那么,怎样表示它在三维空间中的旋转呢?这就是本节介绍的内容。

《科技的温情——挽救鼠鼠/兔兔的生命》

图15 坐标系间的欧式变换。原图来自教材视觉SLAM十四讲。
刚体运动保证了同一个向量在各个坐标系下的长度和夹角都不会发生变化。这种变换称为欧式变换。想象你把手机抛到空中,在它落地摔碎之前,只可能有空间位置和姿态的不同,而它自己的长度、各个面的角度等性质不会有任何变化。这样一个欧式变换由一个旋转和一个平移两部分组成。这里只考虑旋转,设某个单位正交基(e1 ee3),经过一次旋转,变成了(e’1 e’2 e’3)。那么,对于同一个向量a(注意该向量并没有随着坐标系的旋转而发生运动),它在两个坐标系下的坐标为[a1 a2 a3]T和[a’1 a’2 a’3]T

为了描述两个坐标之间的关系,研究人员对上面等式左右同时左乘(e1 e2 e3)。把中间的阵拿出来,定义成一个矩阵R。这个矩阵由两组基之间的内积组成,刻画了旋转前后同一个向量的坐标变换关系。只要旋转是一样的,那么这个矩阵也是一样的。可以说,矩阵R描述了旋转本身。因此它又称为旋转矩阵。

《科技的温情——挽救鼠鼠/兔兔的生命》
图16 轴角表示。

旋转矩阵这种表示方式有以下几个缺点:

1. 旋转矩阵有九个向量,但一次旋转只有三个自由度。因此这种表达方式是冗余的;

2. 旋转矩阵自身带有约束:它必须是个正交矩阵,且行列式为1。当想要估计或优化一个旋转矩阵时,这些约束会使得求解变得更困难。

因此,研究人员希望有一种方式能够紧凑地描述旋转。例如,用一个三维向量表示旋转,可行吗?答案是肯定的。任意旋转都可以用一个旋转轴和一个旋转角来刻画。于是,可以使用一个向量,其方向与旋转轴一致,而长度等于旋转角。这种向量,称为旋转向量。这种表示方法,称为旋转的轴角表示。

研究人员来将旋转的轴角表示形式化。注意这里是欧式空间。用的是向量表示。给定旋转轴n、向量v、旋转后的向量v’。向量可以分解为与旋转轴平行的分量v和与旋转轴垂直的平面π内的分量v。向量v’的垂直分量与向量v的垂直分量之间的夹角大小θ。现在将旋转后的向量v’表示为旋转轴n、旋转角θ和向量v的含量。

《科技的温情——挽救鼠鼠/兔兔的生命》

图17 反对称矩阵。

可以观察到,轴角表示中轴v’、角θ、轴v之间的关系式是用向量工具进行描述的。计算机中通常是矩阵计算。因此,研究人员的目标是推导出这个关系式的矩阵形式。问题来了。怎样用矩阵乘法表示向量叉乘。这里,用反对称矩阵将向量叉乘表示成矩阵乘法。定义了两个转换符:Λ(读作Hat)和V(读作Vee)。Λ是从向量到反对称矩阵的转换符。V是从反对称矩阵到向量的转换符。

《科技的温情——挽救鼠鼠/兔兔的生命》

图18 罗德里格斯公式一。

罗德里格斯公式(Rodrigue’s Formula)揭示出旋转矩阵R、旋转向量v和v’之间相互转换的关系。假设有一个旋转轴为n,角度为θ的旋转。显然,它对应的旋转向量为θ·n。

《科技的温情——挽救鼠鼠/兔兔的生命》

图19 罗德里格斯公式二。

《科技的温情——挽救鼠鼠/兔兔的生命》

图20 欧拉角一。

无论是旋转矩阵、旋转向量,虽然它们能描述旋转,但对我们是非常不直观的。当我们看到一个旋转矩阵或旋转向量时,很难想象出来这个旋转究竟是什么样的。当它们变换时,我们也不知道物体是向哪个方向在转动。而欧拉角则提供了一种非常直观的方式来描述旋转——它使用了三个分离的转角,把一个旋转分解成三次绕不同轴的旋转。当然,由于分解方式有许多种,所以欧拉角也存在着不同的定义方法。比如说,当先绕X轴旋转,再绕Y轴,最后绕Z轴,就得到了一个XYZ轴的旋转。同理,可以定义ZYZ、ZYX等等旋转方式。如果讨论更细一些,还需要区分每次旋转是绕固定轴旋转的,还是绕旋转之后的轴旋转的,这也会给出不一样的定义方式。
《科技的温情——挽救鼠鼠/兔兔的生命》
图21 欧拉角二。

欧拉角的一个重大缺点是会碰到著名的万向锁问题(Gimbal Lock):在俯仰角为±90°时,第一次旋转与第三次旋转将使用同一个轴,使得系统丢失了一个自由度(由三次旋转变成了两次旋转)。这被称为奇异性问题,在其他形式的欧拉角中也同样存在。理论上可以证明,只要我们想用三个实数来表达三维旋转时,都会不可避免地碰到奇异性问题。由于这种原理,欧拉角不适于插值和迭代。

用三个自由度表示氨基酸的平移、三个自由度表示氨基酸的旋转。如果这六个自由度上都服从正态分布,那么代入SDM的前向、后向公式就结束了。问题在于表示旋转的这三个自由度并不位于欧式空间、而是一种叫做特殊旋转群so(3)的黎曼流形(Riemannian manifold)上面。这里的流形,简单理解就是曲面。
李群与李代数
SO(3)——即三维空间中所有正交且行列式为1的变换构成的集合,作为描述刚体旋转的核心数学对象。这里,SO(3)上的点自然形成一个李群(Lie group),其几何结构赋予了研究人员处理连续对称性和变换操作的工具。

然而,SDM框架包含计算得分(score)的微分运算。故需要引入李代数(Lie algebra)作为李群SO(3)的“微分”,或者说,在单位元附近对SO(3)进行线性化处理。更重要的是,李群与李代数之间的联系并非仅限于抽象理论层面:指数映射(exponential mapping)作为二者间的桥梁,赋予了从线性空间到非线性变换之间转换的能力。通过这一映射,研究人员不仅能够在SO(3)中以向量形式表达角速度、加速度等动态变量,还能将其无缝转化为SO(3)内的具体旋转矩阵。

《科技的温情——挽救鼠鼠/兔兔的生命》

图22 李群一。

《科技的温情——挽救鼠鼠/兔兔的生命》

图23 李群二。

《科技的温情——挽救鼠鼠/兔兔的生命》

图24 李群三。

《科技的温情——挽救鼠鼠/兔兔的生命》

图25 李群四。

《科技的温情——挽救鼠鼠/兔兔的生命》

图26 李群五。

《科技的温情——挽救鼠鼠/兔兔的生命》

图27 李群六。

《科技的温情——挽救鼠鼠/兔兔的生命》

图28 李群七。

《科技的温情——挽救鼠鼠/兔兔的生命》

图29 李群八。

《科技的温情——挽救鼠鼠/兔兔的生命》

图30 李群九。

《科技的温情——挽救鼠鼠/兔兔的生命》

图31 李群十。

在黎曼流形上基于得分的扩散
在微抗体骨架设计阶段,基于得分的扩散过程已成为一种新兴而有效的方法。这些模型通过对数据分布进行逐步噪声添加再逆向恢复的过程,来生成高质量的样本。其中的核心概念——“得分”(score),定义为概率密度函数关于随机变量取值点的对数梯度比,它不仅直接关联于数据集固有的模式结构,也提供了一种量化和操作这些潜在特征的有效途径。

然而,在将基于得分的扩散模型推广至更为复杂的非欧几何——黎曼流形时,则需面对额外挑战。首先,在前向算法中,由于流形本身可能具有弯曲、拓扑变化等特性,传统的高斯噪声添加与去除策略不再适用。其次,在后向算法中,通过对流形上各点邻域进行局部线性化处理,并在得到的平坦近似空间内计算得分函数的导数。随后借助指数映射,将切平面上获得的结果投射回原始流形,以保持整个扩散路径在几何意义上的一致性和合理性。再次,在进行得分匹配(score matching)时,由于欧几里得空间中定义的梯度算子无法直接应用于曲面数据,研究人员转而寻求以李代数为基础重新构建相应的微分运算体系。通过将传统的微分方程解耦为一系列沿黎曼流形切向量场展开的方向导数组合,并利用矩阵对称性与群论原理重构得分函数表达式,可以有效克服非均匀度量效应带来的计算难题,同时确保了所建立模型在数学上严谨且物理意义清晰。

在本节中,我们将从这三个方面展开,介绍黎曼流形上基于得分的扩散。

《科技的温情——挽救鼠鼠/兔兔的生命》

图32 R前向一。

高斯函数(或者正态分布)我们并不陌生。但是,高斯函数是怎样得来的?实际上,高斯函数是热传导方程(扩散方程)的基本解。这是扩散方程在欧几里得空间中的形式。那么,在黎曼空间中,或者更具体地,在球面坐标下,扩散方程的形式是怎样的呢?
《科技的温情——挽救鼠鼠/兔兔的生命》
图33 R前向二。

《科技的温情——挽救鼠鼠/兔兔的生命》

图34 R前向三。

《科技的温情——挽救鼠鼠/兔兔的生命》

图35 R前向四。

《科技的温情——挽救鼠鼠/兔兔的生命》

图36 R前向五。

《科技的温情——挽救鼠鼠/兔兔的生命》

图37 R前向六。

《科技的温情——挽救鼠鼠/兔兔的生命》

图38 R前向七。

《科技的温情——挽救鼠鼠/兔兔的生命》

图39 R前向八。

《科技的温情——挽救鼠鼠/兔兔的生命》

图40 R后向。原图来自www.bilibili.com。

《科技的温情——挽救鼠鼠/兔兔的生命》

图41 R匹配一。

《科技的温情——挽救鼠鼠/兔兔的生命》

图42 R匹配二。

《科技的温情——挽救鼠鼠/兔兔的生命》

图43 R匹配三。

《科技的温情——挽救鼠鼠/兔兔的生命》

图44 R匹配四。

算法实践

HA、IL-7Rα、PD-L1、InsR、TrkA微抗体设计

为了比较RFdiffusion与先前的结合蛋白设计方法,作者对五个目标蛋白进行了binder设计:A型流感H1血凝素(HA)、白细胞介素-7受体α亚基(IL-7Rα)、程序性死亡配体1(PD-L1)、胰岛素受体(InsR)和肌动蛋白调节蛋白受体激酶A(TrkA)。对于每个目标,作者设计了潜在的binder,有或没有条件化在兼容的结构折叠信息上,在计算机模拟中取得高成功率。设计通过Alphafold2对接口及单体结构的置信度进行了筛选,并从每个目标中选择了95个设计进行实验评估。

所设计的结合蛋白在大肠杆菌(E. coli)中表达并纯化,通过单点生物层干涉仪(BLI)在10微摩尔浓度下检测其结合性。RFdiffusion方法的设计成功率约为19%,是上一代基线Rosetta的2倍。所有五个目标蛋白都找到了binder,在每个目标测试的设计不足一百个,而以往的研究通常需要数千个设计。对部分设计进行完整的BLI滴定显示了纳米摩尔级别的亲和力,并且无需进一步的实验优化,包括HA与IL-7Rα结合蛋白,它们具有大约30纳摩尔的亲和力。

结合界面往往与蛋白质数据库(PDB)中这些目标的接口截然不同。为了评估binder的特异性,通过竞争BLI测试了六个对IL-7Rα亲和力最高的结合蛋白,所有这六种结合蛋白都与一个结构验证过的阳性对照在相同位点上进行了结合竞争。虽然需要进一步的工作来全面描述整个蛋白质组中的特异性,但这些数据初步证实了新设计结合蛋白的高特异性。

《科技的温情——挽救鼠鼠/兔兔的生命》

图45 实验验证(Watson et al.,2023)。

展望
结合界面
在设计微抗体时,结合界面(PPI)设计能够进一步优化骨架设计的效果。而结合界面设计源自对免疫球蛋白中抗原结合片段(Fab)结合模式的观察。从结构生物学角度来看,Fab片段与抗原之间的结合界面呈现出pocket(口袋型)、groove(沟槽型)以及extended surface(扩展表面型)三种经典模式。

在微抗体设计中,考虑的主要是沟槽型。一方面,groove型接口通常沿抗体或binder分子的表面形成一条较深且细长的沟槽,这一特征使得它在与目标抗原相互作用时具有较高的结构兼容性和空间适应性。相比于pocket型界面要求抗原精确嵌入特定凹洞中,groove型的设计允许更广泛的结合模式和角度调整,从而增加了微抗体对不同形状和大小抗原的识别范围。另一方面,groove型接口往往能提供更为明确且易于操作的接触点。设计者可以聚焦于沟槽内部及周边几个关键氨基酸残基的优化,以增强与目标表位的亲和力,而无需像extended surface那样考虑复杂的二维或三维平面匹配问题(Wu et al., 2023)。这不仅降低了设计难度,也加速了binder开发的速度。

对于沟槽型结合界面,当一个蛋白质(或其特定结构域、肽段等)表现为具有正向曲率的凸起表面时,它的配对分子(例如抗体的一端)将倾向于展示相反的负向曲率——即形成较为凹陷的沟槽,以实现两者间的精准匹配与紧密结合。具体到抗体-抗原识别中,groove型界面通常是指由抗体分子表面形成的一条长而狭的凹槽(groove),它能够与目标抗原上具有特定延伸性或线性特征的部分相匹配。在这种场景下,如果抗原表位展现为曲率正向(凸面)形态,那么为了实现最佳结合状态,相应的抗体groove区域确实应当设计或自然进化出负向曲率(即凹面)以容纳并贴合抗原的这一特征。

当抗原一侧的结合界面是凹面时,用扩散法设计骨架效果较好。而当抗原一侧的结合界面是凸面时,应改用参数化设计方法(parametric groove design)(Yang et al., 2024)。“凹面扩散法”与“凸面参数化策略”代表了两种针对不同表位特征所采用的高效且互补的设计思路。通过细致分析目标表位几何形态及其化学性质,合理选择或组合上述方法将在一定程度上提高微抗体设计的成功率。

《科技的温情——挽救鼠鼠/兔兔的生命》

图46 展望PPI形状。原图来自教材Immunobiology: The Immune System in Health and Disease。

微抗体设计

微抗体设计有扩散法、几何法、进化法等不同的方法。
扩散法作为其中一脉重要流派,其核心理念源于对自然界随机性及适应性演化的深刻洞察。以RFdiffusion为代表的算法模型通过模拟分子层面复杂动态变化过程,旨在揭示抗体-抗原相互作用模式下隐藏的统计规律与潜在机制,为精准识别目标表位并优化结合亲和力奠定了坚实基础。
几何法则立足于结构生物学基本原则之上,强调从空间维度审视抗体骨架与抗原表面之间所呈现出来的几何互补性(geometric complementary)。此类方法尤其适用于那些已知三维构象信息较为丰富、且具有清晰接触界面特征的分子体系。通过精准匹配目标区域形状与化学性质,如利用分子对接技术(Katchalski-Katzir et al., 1992)或MASIF(Gainza et al., 2023)指纹识别手段等,能够有效提升微抗体设计过程中的预测精度与成功率。

进化法则提供了一种更为全面且系统化的思考框架,其关键在于强调在对抗体序列进行优化调整的同时,也需考虑到抗原自身的动态适应性变化。two-sided diffusion(Zhang et al., 2024)策略便是在这一思路指导下应运而生的创新实践之一,尤其适用于处理那些涉及乱序区(disordered regions)或存在构象灵活性的复杂目标对象。通过构建双侧扩散模型并结合机器学习算法分析结果,研究团队能够更加深入地理解微抗体与抗原之间相互作用的动力学特征及稳定状态分布规律。

可能这期公众号对于一些小伙伴来说有些晦涩,需要一定的背景知识。但总的来说,RFdiffusion技术通过引入扩散生成模型,为蛋白质结构预测和设计领域带来了创新性的突破,其精准的计算能力和广泛的应用前景使其成为当前生物科学研究中的重要工具之一,如果可以掌握相信也会成为科研路上的一大助力~
References:

T. Okura et al., “Hydrophobic Alpha-Helical Short Peptides in Overlapping Reading Frames of the Coronavirus Genome,” Pathogens, vol. 11, no. 8, 2022.

D. Fujiwara and I. Fujii, “Phage selection of peptide ‘microantibodies’.,” Curr Protoc Chem Biol, vol. 5, no. 3, pp. 171–194, 2013.

Grigoryan and W. F. DeGrado, “Probing Designability via a Generalized Model of Helical Bundle Geometry,” Journal of Molecular Biology, vol. 405, no. 4, pp. 1079–1100, Jan. 2011.

J. L. Watson et al., “De novo design of protein structure and function with RFdiffusion,” Nature, vol. 620, no. 7976, pp. 1089–1100, Aug. 2023.

J. Dauparas et al., “Robust deep learning–based protein sequence design using ProteinMPNN,” Science, vol. 378, no. 6615, pp. 49–56, Oct. 2022.

X. Zhou et al., “ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention,” Nat Commun, vol. 14, no. 1, p. 7434, Nov. 2023.

M. Gao, D. Nakajima An, J. M. Parks, and J. Skolnick, “AF2Complex predicts direct physical interactions in multimeric proteins with deep learning,” Nat Commun, vol. 13, no. 1, p. 1744, Apr. 2022, doi: 10.1038/s41467-022-29394-2.

F. Homma, J. Huang, and R. A. L. Van Der Hoorn, “AlphaFold-Multimer predicts cross-kingdom interactions at the plant-pathogen interface,” Nat Commun, vol. 14, no. 1, p. 6040, Sep. 2023, doi: 10.1038/s41467-023-41721-9.

Song and S. Ermon, “Generative Modeling by Estimating Gradients of the Data Distribution,” Oct. 10, 2020

Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models,” Dec. 16, 2020

Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-Based Generative Modeling through Stochastic Differential Equations,” Feb. 10, 2021.
Watson, Joseph L et al. “De novo design of protein structure and function with RFdiffusion.” Nature vol. 620,7976 (2023): 1089-1100. doi:10.1038/s41586-023-06415-8
W. Yang et al., “Design of High Affinity Binders to Convex Protein Target Sites,” bioRxiv, 2024, doi: 10.1101/2024.05.01.592114.
E. Katchalski-Katzir, I. Shariv, M. Eisenstein, A. A. Friesem, C. Aflalo, and I. A. Vakser, “Molecular surface recognition: determination of geometric fit between proteins and their ligands by correlation techniques.,” Proc. Natl. Acad. Sci. U.S.A., vol. 89, no. 6, pp. 2195–2199, Mar. 1992, doi: 10.1073/pnas.89.6.2195.
P. Gainza et al., “De novo design of protein interactions with learned surface fingerprints,” Nature, vol. 617, no. 7959, pp. 176–184, May 2023, doi: 10.1038/s41586-023-05993-x.
J. Z. Zhang, X. Li, C. Liu, H. Jiang, K. Wu, and D. Baker, “De novo design of Ras isoform selective binders,” Aug. 30, 2024. doi: 10.1101/2024.08.29.610300.
图文来源:伯远生物公众号
《科技的温情——挽救鼠鼠/兔兔的生命》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注