Paper Link

ABSTRACT


分子对接的任务(将小分子配体与蛋白质的结合结构预测)对于药物设计至关重要。

USED TO : 最近的深度学习方法将对接视为回归问题,与传统的基于搜索的方法相比,已经减少了运行时间,但在准确性方面尚未实现实质性的改进。

创新:将分子对接框架构建为生成建模问题,并开发了DIFFDOCK,这是一个基于扩散的生成模型,用于处理配体姿态的非欧几里得流形。为此,我们将这个流形映射到涉及对接的自由度空间的乘积空间中(平移、旋转和扭转自由度),并在该空间上开发了高效的扩散过程。Repo Link


看看别人是怎么做的
理解这个领域是在干什么
任务的定义,常用的数据集,评价指标是怎么计算的

INTRODUCTION

蛋白质的生物功能可以通过与其结合的小分子配体(如药物)来调节。因此,计算药物设计中的一个关键任务是分子对接——即预测配体与靶蛋白结合时的位置、方向和构象,从中可以推断配体的作用(如果有的话)。

近期的研究是将 docking 视为回归问题,虽然加快了速度,但是在准确率方面没有明显的改进 ——> 可能是因为基于回归的范式与分子对接的目标并不完全相符,这体现在标准的准确性指标更像是在预测模型下数据的可能性,而不是回归损失。 ——> 将整个问题定性为给定一个配体和靶蛋白的结构,我们学习生成一个配体姿态的分布。

针对这个,作者开发了 DIFFDOCK ,在涉及对接的自由度上定义了一个扩散过程:配体相对于蛋白质的位置(定位结合口袋)、其在口袋中的方向以及描述其构象的扭转角度。DIFFDOCK 通过运行学习到的(逆向)扩散过程来采样姿态,该过程将一个无信息、嘈杂的先验分布逐步转化为学习模型分布。

image-20231205140228520


左图:模型以单独的配体和蛋白质结构作为输入。

中间:通过对平移、旋转和扭转自由度进行逆向扩散来去噪随机采样的初始姿态。

右图:采样的姿态经过置信度模型排名,生成最终的预测和置信度分数。


虽然扩散生成模型(DGM)已经应用于分子机器学习中的其他问题[Xu et al., 2021; Jing et al., 2022; Hoogeboom et al., 2022],但现有方法并不适用于分子对接,在分子对接中,配体姿态空间是一个 $ (m + 6) $ 维子流形 $ M ⊂ R^{3n} $,其中 $ n $ 和 $ m $ 分别是原子数和扭转角的数量。为了开发 DIFFDOCK,我们意识到对接的自由度将 $ M $ 定义为通过一组允许的配体姿态变换而可访问的姿态空间。我们利用这个想法将 $ M $ 中的元素映射到与这些变换对应的群的乘积空间,从而可以高效地开发和训练DGM。

由于对接模型的应用通常只需要固定数量的预测和这些预测的置信度分数,因此作者 训练了一个置信度模型,为从 DGM 中采样的姿态提供置信度估计,并选择最有可能的样本。蛮力搜索和一次性预测的折中,保留了考虑和比较多个姿态的能力,同时避免了高维搜索的困难。

在 ESMFold [Lin et al., 2022]生成的结构上评估这些方法证明了现有方法无法对准确度较低的apo-结构(RMSD<2A等于或低于10%)进行对接。相反,DIFFDOCK在没有进一步训练的情况下,将其最可能预测的22%定位在2埃范围内

总结,这个工作的最主要贡献在于:

  1. 将分子对接任务构建为一个生成问题,并强调了先前深度学习方法存在的问题。
  2. 对涉及分子对接的配体姿态制定了一种新颖的扩散过程。
  3. 在 PDBBind 盲对接基准测试中,我们取得了新的最先进成果,顶级预测的RMSD<2A达到了38%,明显超过了先前最佳的基于搜索的方法(23%)和深度学习方法(20%)。
  4. 使用 ESMFold 生成近似蛋白质无配体构象,我们展示了我们的方法在28%的复合物中实现了顶级预测的RMSD<2A,几乎将最准确基准的准确性提高了两倍。

BACKGROUND AND RELATED WORK

Molecular docking

分子对接任务通常分为已知口袋对接和盲对接。已知口袋对接输入是分子将结合到蛋白质的位置(结合口袋),只需要找到正确的方向以及构象。

盲对接不提供关于口袋的任何的先验知识。本文主要关注的是“盲对接”

对接方法通常假设知道蛋白质全构象(结合),但在许多实际应用中这种假设是不现实的,因此,我们将对方法在全构象和计算生成的无配体构象(未结合,没有配体结合的蛋白质结构)上进行评估。方法通常通过命中率或近似正确预测的百分比来评估,通常认为是配体 RMSD 误差低于 2A 的那些。

Search-based docking methods

传统的对接方法由一个参数化的物理学评分函数和一个搜索算法组成。

评分函数接受 3D 结构并返回给定姿势的质量/概率估计,而搜索算法则随机修改配体姿势(位置、方向和扭转角),目标是找到评分函数的全局最优值。

最近,机器学习已被用于参数化评分函数。然而,这些基于搜索的方法仍然计算量昂贵,在面临盲对接所特征化的庞大搜索空间时往往不准确,并且在面对无配体结构时会严重受损。

Machine learning for blind docking

近年来,EquiBind试图通过直接预测配体和蛋白质上的口袋关键点并对其进行对齐来解决盲对接任务。

(EquiBind 方法通过直接预测配体和蛋白质上的口袋关键点,并将其对齐来确定对接构象。这种方法的优点是速度快,但缺点是精度不高。)

TANKBind 在此基础上进行了改进,通过独立地为每个可能的口袋预测一个对接构象(以原子间距离矩阵的形式),然后对其进行排名。

(TANKBind 方法通过独立地为每个可能的口袋预测一个对接构象,然后对其进行排名来确定最佳对接构象。这种方法的优点是精度高,但缺点是速度慢。)

虽然这些基于一拍或几拍回归的预测方法速度要快得多,但其性能尚未达到传统搜索式方法的水平。

Diffusion generative models.

设数据分布为连续扩散过程的初始分布 $ p_0(x) $,该过程由 $ dx=f(x;t)dt+g(t)dw $ 描述,其中 $ w $ 是维纳过程(描述了物理系统的随机运动)。

扩散生成模型 (DGMs,通过学习数据分布的扩散过程来生成数据) 通过逆扩散 $ dx = [f(x; t)-g(t)^2 \nabla_x \log p_t(x)] + g(t) dw $ 生成数据,其中 $ score^2\nabla_x\log p_t(x) $ 是评分函数。

本论文中,我们把$ f(x,t) $设置恒0

已经开发了几种 DGM 用于分子机器学习任务,包括分子生成、构象生成 和蛋白质设计 。然而,这些方法在整个欧几里得空间 $ \R^{3n} $ 上学习分布,其中每个原子有 3 个坐标,这使得它们不适合分子对接,因为分子对接的自由度要严格得多。

DOCKING AS GENERATIVE MODELING

EquiBind 和其他的ML方法减少搜索代价以提高速度,但是表现不如搜索的方法。这可能是由模型的不确定性和优化不符合分子对接在实践中使用和评估方式的目标所导致的

Molecular docking objective.

当结构之间的距离(以配体 RMSD 为单位)小于原子相互作用长度尺度(几埃)的某个小容差时,预测才被认为是可接受的。因此,该领域使用的标准评估指标是具有配体 RMSD(相对于晶体配体构象)低于某值 $ \epsilon $ 的预测百分比。然而,最大化预测中 RMSD 在某个容差范围 $ \epsilon $ 内的比例的目标是不可微分的,无法用于随机梯度下降训练。相反,最大化预测中RMSD < ε 的期望比例相当于在 ε 趋近于0的极限情况下,最大化模型输出分布下真实结构的似然性。这一观察结果激发了训练一个生成模型,以最小化模型分布下观察结构的负对数似然的上界。因此,我们将分子对接视为在蛋白质结构条件下学习配体姿势分布的问题,并在此空间中开发扩散生成模型(第4节)。

Confidence model.

使用训练好的扩散模型,可以根据模型从后验分布中对配体姿势进行任意数量的采样。然而,研究人员通常只对看到一个或少量预测的姿势感兴趣,并希望得到相应的置信度3,以供下游分析使用。因此,我们训练了一个置信度模型,针对扩散模型采样的姿势,并根据其置信度对它们进行排名,以确定它们是否在误差容限内。排名靠前的配体姿势和相关的置信度被视为DIFFDOCK的最高排名预测和置信度分数。

Problem with regression-based methods.

Problems:

  • 配体可能与蛋白质结合多种姿势所带来的数据固有不确定性(即数据的不确定性,例如,配体可能以多种姿势结合蛋白质)
  • 位姿的认知不确定性(由任务的复杂性与有限的模型容量和可用数据引起)

考虑到可用的共变信息(仅蛋白质结构和配体标识),任何方法都会对许多可行的替代方案中的正确结合位姿存在不确定性。

任何强制选择最小化预期平方误差的回归式方法将学习预测这些替代方案的(加权)均值。

相比之下,具有相同共变信息的生成模型将致力于捕获替代方案的分布,即使同样无法区分正确的目标。

这种行为如图2所示,导致基于回归的模型产生的物理上不合理的姿势明显多于我们的方法。特别地,我们观察到EquiBind的预测中频繁发生位阻冲突(例如,占26%),以及EquiBind和TANKBind的预测中存在自身相交(图4和图12)。我们在DIFFDOCK的预测中未发现任何相交。这些现象的可视化和定量证据见附录F.1。


image-20231218151304187

  • “DIFFDOCK top-1” 是指具有最高置信度的样本。
  • “DIFFDOCK samples” 是指其他扩散模型样本。

左图:

生成模型相对于回归模型的优势的视觉图。给定正确构象的不确定性(由橙色分布表示),回归模型倾向于预测分布的均值,而均值可能位于低密度区域。

中图:

当蛋白质存在全局对称性(随机不确定性)时,EquiBind 将分子放在中心,而 DIFFDOCK 可以采样所有真实构象。

右图:

即使在没有强烈的随机不确定性的情况下,认知不确定性也会导致 EquiBind 的预测出现立体障碍,而 TANKBind 的预测会出现许多自相交。


Method

OVERVIEW

配体姿势是对原子位置在 $\R^3$ 中的分配,因此原则上,我们可以将姿势 $ x $ 视为 $ R^{3n} $ 中的元素,其中 $ n $ 是原子数。但是如果这样分配就比分子对接中相关的自由度多得多。具体来说,配体中的键长、键角和小环基本上是刚性的,因此配体的灵活性几乎完全在于可旋转键处的扭转角

传统对接方法以及大多数 ML 方法都将配体的孤立种子构象 $ c ∈ R^{3n} $ 作为输入,并仅改变最终结合构象中的相对位置和扭转自由度。因此,与 $ c $ 一致的配体姿势空间是 $ (m + 6) $ 维子流形 $ M_c ⊂ R^{3n} $,其中 $ m $ 是可旋转键的数量,额外的 6 个自由度来自相对于固定蛋白的旋转变换

(这里解释一下为什么是+6,因为一个刚体的旋转角度可以由三个维度来进行表述,而其自己旋转和相对固定蛋白的旋转变换就是两个3,也就是6)。

我们遵循这种采用种子构象 $ c $ 作为输入的范例,并将分子对接表述为学习条件为蛋白质结构 $ y $ 的子流形 $ M_c $ 上概率分布 $ p_c(x | y) $。

De Bortoli 等人 [2022] 将子流形上的 DGM 表述为将环境空间中的扩散投影到子流形上。但是,这种扩散的核 $ p(\bold{x}_t | \bold{x}_0) $ 不可用闭式形式,必须使用几何随机游走进行数值采样,这使得训练非常低效。

我们改为定义一个一对一的映射到另一个“更漂亮”的流形,其中可以直接采样扩散核,并在该流形上开发 DGM。

任何与种子构象一致的配体姿势都可以通过以下组合来实现:

  1. 配体平移
  2. 配体旋转
  3. 扭转角的变化

这可以视为子流形 $ M_c $ 的非正式定义。同时,它表明,给定与 $ m + 6 $ 个自由度对应的连续配体姿势变换族,$ M_c $ 上的分布可以提升到相应群的乘积空间上的分布——这本身就是一个流形。我们将展示如何在该乘积空间上采样扩散核并在其上训练 DGM。

LIGAND POSE TRANSFORMATIONS

我们将配体位置的平移与 3D 平移群 $ T(3) $ 相关联,将配体的刚性旋转与 3D 旋转群 $ SO(3) $ 相关联,将每个可旋转键处的扭转角变化与 2D 旋转群 $ SO(2) $ 的一个副本相关联。更正式地,我们定义这些群中的每个群对配体姿势 $ c ∈ R^{3n} $ 的操作。

平移 $ A _{tr} : T(3) × R^{3n} → R^{3n} $

定义为:$ A _{tr}(r; x)_i = x_i + r $

其中 r ∈ R3 是平移向量,x ∈ R3n 是配体姿势,xi ∈ R3 是第 i 个原子的位置。