Paper Link

ABSTRACT

MRL很重要，大多数MRL局限在1D和2D。这篇文章提出了一个通用的3D框架(Uni-Mol)预测。

通过整合三维信息，Uni-Mol在14或者15个分子的预测任务优于SOTA(评价指标，通用算法)，并且在蛋白质-配体结合（匹配主要方向 Docking）姿态预测、分子构象生成等3D空间任务有很优越的表现。Repo Link

看看别人是怎么做的
理解这个领域是在干什么
任务的定义，常用的数据集，评价指标是怎么计算的

INTRODUCTION

表征学习有未标记的数据很多，标记的数据很少的特点，所以首先采用预训练程序从大规模没有标记的数据中学习良好的表示，再用微调从已标记的数据提取更多的信息。

在药物设计中，药物的可能性其实很多，但是关于药物的标注的数据很有限，所以分子表征学习模型 (MRL) 比基于分子指纹的模型更好。但是很多 MRL 方法都是首先用一维（SMILES, InChI）或者二位图来进行表征，这样这些方法限制了模型收集三维特征给下游的任务（比如很重要的蛋白配体结合姿态的预测 -> proteinligand binding pose）。就算有尝试利用三维信息，但是其表现不好 -> 3D数据集小，3D数据集在微调的时候不能被用做输入/输出，3D数据集仅仅被用为辅助信息。

本论文提出的是第一个通用的3D分子预训练框架（Uni-Mol），它来源于大规模的未标记数据，能够直接将3D位置作为输入和输出。

如下图所示，Uni-Mol 有三个部分：

主干（Backbone）基于Transformer，可以有效抓取三维信息并且提供三维预测。
预训练（Pretraining）两个大规模数据集：一个209M的分子构象数据集和一个3M候选蛋白质口袋数据集，分别用于分子和蛋白质口袋的2个模型的预训练。以及两个预训练任务：三维位置恢复和掩模原子预测，用于有效地学习三维表征。
微调（Finetuning）一些下游任务的微调策略。

有效性（评价指标）：

在分子性质预测任务中，Uni-Mol在MoleculeNet基准上的14/15个数据集上优于SOTA。
对于蛋白质-配体复合物的位姿预测，Uni-Mol预测80.35%的结合位姿，RMSD <= 2Å，相对于常用对接方法提高22.58%，在CASF-2016基准的对接能力测试中排名第一。
在分子构象生成方面，Uni-Mol在geo - qm9和geo - drugs上的Coverage和Matching指标均达到SOTA。

贡献：

第一个可以预测3D位置的纯3D分子预训练框架，也是第一个可以直接用于药物设计领域的3D任务的分子预训练框架。
基于广泛的基准测试，我们构建了一个简单高效的SE(3) Transformer主干，并在Uni-Mol中构建了一个有效的3D预训练策略。
Uni-Mol在各种下游任务中优于SOTA
整个Uni-Mol框架，包括代码、模型和数据，都将公开

UNI-MOL FRAMEWORK

BACKBONE

在 MRL 中，通常用 GNN 或者 Transformer 为主干模型。但是 GNN 为了提高效率，用的是局部连接图来表示分子。但是如果这样就会缺乏捕捉长距离原子相互作用的能力。所以 Uni-Mol 使用的是 Transformer 作为主干模型。

但是 Transformer 最初是为了 NLP 任务而设计的，虽然有尝试扩展 Transformer 到三维，但是其中有很多组件，在大数据集上训练的很慢。考虑到效率问题，这里基于 Pre-LayerNorm 的标准 Transformer 进行了修改。

Architecture Overview

整个模型以原子类型和原子坐标作为输入并且将其维护在模型中。原子表征是由原子类型嵌入初始化，而对表征是通过计算原子坐标得到的不变的空间位置编码初始化。特别要注意，对表征对全局旋转和平移具有不变性。上述两个表征在自注意力模块中通信。

Encode 3D positions

Transformer 有置换不变性（因为其需要同时考虑输入序列的所有位置），如果没有位置编码， Transformer 区分输入的位置。通过对现有的编码方式进行基准测试，最终选用 Euclidean distances of atom pairs （原子对的欧几里得距离） + a pair-type aware Gaussian kernel （考虑原子对类型的高斯核）进行编码。

而不变的3D空间编码是在对级进行编码，在Transformer里面也应该保留对级编码以处理三维信息。具体来说，对表征被初始化为空间位置编码。然后，为了更新对表征，该方法利用自关注中多头查询键乘积的结果进行原子到对通信（ atom-to-pair communication ）。$ij$ 对表示的更新表示为

$q_{ij}$ 是第 $l$ 层中的原子对 $ij$ 的标识，$H$ 是注意头的数量， $d$ 是隐藏表征的维度， $Q_i^{l, h}(K_j^{l, h})^T$ 是第 $l$ 层中第 $h$ 个头的 $ij$ 查询键。

此外，为了在原子表示中利用三维信息，该方法还引入了对到原子的通信（ pair-to-atom communication ），将对表示作为自注意中的偏置项。具有对原子通信的自关注表示为

其中，$V_j^{l, h}$ 是第 $l$ 层中第 $h$ 头中第 $j$ 的值。

Predict 3D positions

为了直接输出坐标，基于SE(3)-不变对表示和等变输入 $x_i−x_j$ ，这里引入了一个SE(3)-等变头来预测三维坐标，记为

$n$ 是原子的数量， $L$ 是层数， $x_i\in \R ^3$ 是第 $i$ 个原子的输入坐标， $\hat{x}_i \in \R ^3$ 是第 $i$ 个原子的输出坐标， $\text{ReLU}(y) = \max(0, y)$ ， $U \in \R ^{H\times H}$ 和 $W \in \R ^{H\times 1}$ 是对表征转换为标量的投影矩阵。

这个头部类似于 EGNN 的位置更新，但是 Uni-Mol 只更新头部，所以性能更佳。除此之外，为了与 delta 预测结果保持一致，Uni-Mol 使用 delta 对表征来更新坐标，而 EGNN 直接用的对表征学习。（通过验证 Uni-Mol 更好）

PRETRAINING

Large-Scale dataset

这里生成了两个大规模数据集，一个是由三维分子结构组成的有机分子，另外一个是由候选蛋白质口袋的三维结构组成。而对候选蛋白质口袋的预训练可以显著提高 蛋白质-配体结构 和相互作用相关任务的性能。

在 RDKit 中使用 ETKGD 和 Merck 分子力场为每个分子（分子预训练数据集）生成三维构象。

在蛋白质数据库（ RCSB PDB ）中获得蛋白质口袋预训练数据集，通过添加缺失的侧链进行和氢原子去重，用 Fpocket 检测可能的 binding 口袋，最后通过残基数过滤口袋。

Pretraining strategies

为了让 Uni-Mol 能够在预训练的时候学习三维信息，这里设计了三维位置恢复的自我监督任务。直观地采用遮蔽位置的方法不可行，因为位置是连续变量而不是离散变量。为了减少随机值到真实值的偏差以让训练更可行，这里给了两种方法：

重分配。给定 $m$ 原子和 $m$ 个随机位置，有 $m!$ 种可能的分配方式。根据静止动作原理，我们可以使用最小 delta 位置的一种。
噪声范围。限制随机位置的空间，只允许在真实位置附近的随机位置存在噪声 $r$ 。如果 $r$ 较大，则重新分配，如果r较小，则不重新分配。算法如下图所示。

经过测试，在 $ r = 1\AA $ 的时候，不进行重新分配的时候简单有效。

为了恢复位置，这里使用了两个额外的头：

对距离检测。基于对表征的去预测错误原子对的真实距离。
坐标预测。基于 SE(3)-等变坐标头预测错误原子的真实坐标。

最后，错误原子的原子类型被遮罩，并使用一个头部来预测正确的原子类型。使用所有原子的中心代表整个分子/口袋。

FINETUNING

本阶段使用的数据预处理方式和预训练一样。分子可以在短时间内生成多个构象，所以可以用它们做数据增强。对提供原子坐标的任务，可以跳过生成三维构象的过程，直接使用。其他可以分类如下：

非三维预测任务。包括分子性质预测、分子相似性、口袋药物化能力预测、蛋白质-配体结合亲和力预测等。可以直接使用代表整个分子/口袋的 [CLS] 表示，或者所有原子的平均表示，并使用线性头部进行微调。在包含口袋-分子对的任务中，我们可以连接它们的 [CLS] 表示，然后用线性头部进行微调。
分子或口袋的 3D 预测任务。预测输入的3D构象，例如分子构象生成。Uni-Mol 中，这个任务被转化为构象优化任务：基于不同的输入构象生成新的构象。具体而言，模型监督学习了从Uni-Mol生成的构象到标记构象的映射。此外，输出构象可以通过 SE(3)-等变头部端到端生成。
蛋白质-配体对的3D预测任务。 预测蛋白质结合位点和分子配体的复合物结构。除了口袋和分子本身的构象变化外，我们还需要考虑分子如何在口袋中放置，即刚性运动的额外6个自由度（3个旋转和3个平移）。原则上，使用 Uni-Mol ，我们可以以端到端的方式通过 SE(3)-等变头部预测复合物构象。然而，这不稳定，因为它对分子配体的初始对接位置非常敏感。因此，在本文中，为了摆脱初始位置的影响，我们使用基于评分函数的优化方法。具体来说，首先通过各自的构象从各自的预训练模型获取分子表示和口袋表示；然后，将它们的表示连接起来作为附加的 4 层 Uni-Mol 解码器的输入，该解码器被微调以学习分子和口袋中所有重原子的配对距离。然后，用预测的配对距离矩阵作为评分函数，我们首先随机放置配体，然后通过直接反向传播当前配对距离矩阵和预测配对距离矩阵的损失来优化其原子坐标。多亏了反向传播的效率，这个过程非常快，比传统的对接工具快约 100 倍。更多细节可以在附录C.6中找到。

EXPERIMENTS

为了验证 Uni-Mol 模型的有效性，我们在多个下游任务上进行了广泛实验，包括分子性质预测、分子构象生成、口袋性质预测和 蛋白质-配体结合位姿 预测。此外，还进行了几个消融研究 ( 附录 C 和 D ) 。

MOLECULAR PROPERTY PREDICTION

分子性质预测

Datasets and setup

MoleculeNet 是分子性质预测的流行基准，包括关注不同分子性质的数据集，从量子力学和物理化学到生物物理学和生理学。遵循先前的工作 GEM ，我们使用支架分割，并报告由3个随机种子结果计算的均值和标准差。

Baselines

我们将Uni-Mol与多个基线进行比较，包括监督和预训练 Baselines 。D-MPNN 和AttentiveFP 是监督GNN方法。N-gram 、PretrainGNN 、GROVER 、GraphMVP 、MolCLR 和GEM 是预训练方法。N-gram 将图中的节点嵌入并组装成短路径作为图表示。随机森林和 XGBoost 被用作下游任务的预测器。

Results

表1和表2显示了 Uni-Mol 和与之有竞争能力 baselines 的实验结果，其中最好的结果以粗体标记。大多数 baselines 结果来自GEM论文，除了GraphMVP和MolCLR。GraphMVP的结果来自其论文。由于MolCLR使用不同的数据拆分设置（不考虑手性），我们将其与其他基线相同的数据显示为相同的数据拆分设置。从结果中，我们可以总结如下：

1）总体而言，Uni-Mol在几乎所有下游数据集上都优于 baselines 。

2）在溶解度（Lipo）、自由能（FreeSolv）和量子力学（QM7, QM8, QM9）性质预测任务中，Uni-Mol明显优于 baselines 。由于3D信息在这几个任务中都特别重要，这意味着 Uni-mol 在学习三维表示的时候更佳出彩。

3）在 Uni-Mol 未能在 SIDER 数据集上超越 SOTA。经过调查，我们发现 Uni-Mol 未能为 SIDER 中许多分子（如天然产物和肽类）生成 3D 构象。因此，由于缺少3D信息，Uni-Mol无法超越其他模型是合理的。

总之，通过更好地利用三维信息进行预训练，Uni-Mol 在几乎所有性质预测任务中都优于以往的所有 MRL 模型。

MOLECULAR CONFORMATION GENERATION

（好像跟我们现在做的不是特别相关）我们将分子构象生成的细节留给附录 C.4，因为文献 [57] 指出目前分子构象生成的基准可能是错误的。

POCKET PROPERTY PREDICTION

Datasets and setup

药物可达性是候选蛋白质口袋产生与特定分子配体稳定结合的能力，是候选蛋白质口袋最关键的性质之一。然而，由于监督数据非常有限，这项任务非常具有挑战性。例如，NRDLD [58]，一个常用的数据集，只包含113个数据样本。因此，除了NRDLD之外，我们构建了一个回归数据集，用于基准测试口袋属性预测性能。具体来说，基于Fpocket工具，我们计算了 164586 个候选口袋的 Fpocket 分数、药物可达性分数、总 SASA 和疏水性分数。模型被微调以预测这些分数。

Baselines

在NRDLD数据集上，我们将Uni-Mol与[59]中评估的6种先前方法进行比较。准确度、召回率、精确度和F1分数被用作这个分类任务的指标。在我们创建的基准数据集上，由于没有合适的基准线，我们使用了另一个Uni-Mol模型，没有进行预训练，标记为Uni-Mol~no_pretrained~，来检查预训练对口袋属性预测带来的性能。

Results

根据表 3 所示，Uni-Mol 在 NRDLD 上展现出最佳的准确率、召回率和 F1 分数。在我们创建的基准数据集中，预训练的 Uni-Mol 模型在所有四个评分指标上远远优于未经预训练的模型。这表明在候选蛋白质口袋上进行预训练确实在口袋属性预测任务中带来了改进。与分子属性预测不同，由于监督数据非常有限，口袋属性预测受到的关注要少得多。因此，我们还发布了我们创建的基准数据集，希望它能帮助未来的研究。

PROTEIN-LIGAND BINDING POSE PREDICTION （重点）

Datasets and setup

如上所述，蛋白质-配体结合姿态预测是药物设计中最重要的任务之一。Uni-Mol结合了分子和口袋预训练模型，以学习基于距离矩阵的评分函数，然后优化复合物构象。

对于基准数据集，参考之前的工作[28; 60]，我们使用 CASF-2016 作为测试集。在微调中使用的训练数据，我们使用 PDBbind General set v.2020 [61]（19,443个复合物）。值得注意的是，为了检验泛化能力，我们进一步筛选出训练集中与测试集（CASF-2016）相似的复合物。特别是，筛选出具有高蛋白质序列相似性（MMSeqs2 [62]相似性超过40%）和高分子相似性（指纹相似性超过80%）的复合物，筛选后剩下18,404个复合物。

进行了两个基准测试：

1）对接能力，是在CASF-2016中基准评估评分函数能力的默认指标。具体而言，它测试评分函数是否能够区分基本真实的结合构象和一组伪装体。CASF-2016为每个基本真实提供50-100个伪装体构象。评分函数被应用于对它们进行排名，并且期望基本真实为排名第一。

2）结合构象精度。具体而言，我们使用半灵活对接设置：保持口袋构象固定，而配体构象完全灵活。我们评估预测与基本真实之间的RMSD。遵循先前的工作，我们使用在预定义的RMSD阈值以下的结果百分比作为度量标准。

Baselines

针对对接能力基准测试，baselines 是 DeepDock [60] 和 [28] 中报道的排名前 10 的评分函数，其中包括传统评分函数和基于机器学习的评分函数。

对于结合位姿精确度，baselines 是 Autodock Vina [63; 64]、Vinardo [65]、Smina [66] 和 AutoDock4 [67]。

Results

根据图3中显示的对接功率基准测试结果，Uni-Mol排名第一，其最高的Top 1成功率为91.2%。

作为比较，先前排名第一的评分函数AutoDock Vina [63; 64] 在此基准测试中达到了90.2%的Top 1成功率。

从表4中显示的结合姿态准确性结果来看，Uni-Mol也优于其他基准方法。值得注意的是，在2Å的阈值下，Uni-Mol相对于第二优秀的方法表现出了22.58%的优势。

这个结果表明，Uni-Mol能够有效地学习来自分子和口袋以及它们在3D空间中的相互作用的三维信息。

即使没有预训练，Uni-Mol（标记为Uni-Molrandom）也表现出色。

这证明了Uni-Mol骨干的有效性，因为它可以通过有限的数据有效地学习三维信息。

总之，通过结合分子和口袋预训练模型，Uni-Mol在蛋白质-配体结合任务中明显优于广泛使用的对接工具。我们将效率基准测试和结合姿态预测的可视化留在附录E中。

Representation learning

近年来，表示学习[1; 2; 3]受到了广泛关注，并在许多应用中占据主导地位，比如在自然语言处理（NLP）[4; 5; 68; 6; 7]、计算机视觉（CV）[8; 69; 70]或多模态[71; 72; 73]领域。毫无疑问，表示学习已成为各种任务中的默认技术。

Molecular representation learning

最近在大规模未标记分子上进行的表示学习引起了广泛关注。SMILES-BERT [18] 是使用BERT [4]对分子的SMILES字符串进行预训练的。随后的研究大多在2D分子拓扑图上进行预训练 [23; 11]。MolCLR [12] 对分子图进行数据增强，包括节点和图级别，采用自监督对比学习策略来学习分子表示。此外，一些最近的工作尝试利用分子的3D空间信息，并专注于分子的2D拓扑与3D几何之间的对比或迁移学习。例如，GraphMVP [26] 提出了一个基于对比学习的基于GNN的框架，用于分子的2D拓扑与3D几何之间。GEM [13] 使用键角和键长作为额外的边属性来增强3D信息。

SE(3)-Equivariant models

在许多多体场景中，例如潜在能量表面拟合，通常需要SE-(3)等变性。已经提出了一系列SE(3)模型，例如SchNet [74]、张量场网络 [30]、SE(3)变换器 [31]、DimmNet [75]、等变图神经网络（EGNN）[41]、GemNet [37]和SphereNet [76]。这些模型大多设计用于能量和力的监督学习。

Pocket druggability prediction

蛋白质结合口袋的可药性预测对于药物发现至关重要，因为需要在一开始就识别可药物化的口袋。由于蛋白质会发生构象变化，可能会改变口袋的可药性，因此有必要利用3D空间数据来超越序列信息。早期的方法，如Volsite[77]、DrugPred[58]和PockDrug[78]，基于口袋静态结构的预定义描述符预测可药性。后来，基于3D-CNN的TRAPP-CNN[59]提出了分析蛋白质构象变化并利用这些信息进行可药性预测

Protein-ligand binding pose prediction (重点)

在基于结构的药物设计中，了解蛋白质靶标和配体之间的相互作用至关重要。

体外估计结合位姿和亲和力，如对接，可以识别先导物并指导分子优化。

特别是，对接是结构为基础的药物设计中最重要的方法之一，已经发展了数十年。

AutoDock4 [67]、AutoDock Vina [63; 64]和Smina [66]等工具是目前最常用的对接程序。

此外，基于机器学习的对接方法，如$∆ _{Vina}RF_{20}$ [79]和DeepDock [60]也已经开发出来，以预测蛋白质配体结合姿态和评估蛋白质配体结合亲和力。

Equibind [80]是最近基于图深度学习的方法。然而，Uni-Mol不能与Equibind进行公平的、类似的比较，因为Equibind是为盲对接提出的。而Uni-Mol目前是为靶向对接设计的，它遵循了大多数以前的传统对接工具[81]。区别在于盲对接使用整个蛋白质进行对接，而靶向对接直接使用口袋。我们将在未来的工作中将Uni-Mol扩展到盲对接任务。

Conclusion

在这篇论文中，为了扩大分子表示学习（MRL）的应用范围和表征能力，我们提出了Uni-Mol，这是第一个通用的大规模三维MRL框架。Uni-Mol由三部分组成：基于Transformer的主干用于处理三维数据；两个大规模预训练模型分别用于学习分子和口袋的表示；针对所有下游任务的微调策略。实验证明，Uni-Mol在各种下游任务中表现优于现有的最先进技术，特别是在三维空间任务中。

有三个潜在的未来方向。

1）更好的相互作用机制，用于微调两个预训练模型。由于当前版本的Uni-Mol中预训练口袋模型和预训练分子模型之间的交互较为简单，我们相信在进一步改进方面有很大的空间。

2）更大规模的Uni-Mol模型。由于更大规模的预训练模型通常表现更好，值得在更大的数据集上训练一个大规模的Uni-Mol模型。

3）更多高质量的基准测试集。虽然在药物设计领域已经有许多应用，但缺乏高质量的公共数据集。许多公共数据集由于数据质量低下无法满足实际需求。我们认为高质量的基准测试集将成为整个领域的指路明灯，并将显著加速药物设计的发展。

附录E MORE RESULTS FOR BINDING POSE PREDICTION

Efficiency benchmark

我们将Uni-Mol的结合位姿预测与常用的对接工具在效率上进行比较。基准结果来自EquiBind [99]论文。Uni-Mol的结合位姿预测在单个V100 GPU上运行。对于每个分子，Uni-Mol以10种不同的初始构象运行，并报告总计算时间成本。正如表20所示，Uni-Mol比传统的对接工具快得多，大约快了250倍。

Visualization

我们展示了在CASF-2016测试数据集中蛋白质-配体结合位姿预测的结果，如图6所示。绿色分子是Uni-Mol的预测结果，而红色分子是复合物中的实际情况。从图中可以看出，Uni-Mol能够准确预测结合复合物，与实际情况的配体有很大的重叠部分。

Ligand conformation performance

根据表4所示，Uni-Mol在小于1.0Å的RMSD方面无法超越流行的对接工具。经过调查，我们发现这是由于配体本身的RMSD不佳，如表21所示。

我们假设Uni-Mol中的结合位预测不是端到端的，并且基于梯度下降的优化不具备物理/化学意识，因此可能会产生不准确的配体构象。相比之下，流行的对接工具大多具备物理/化学意识，比如通过枚举可旋转键来采样配体构象[65]。为了解决这个问题，一个简单的解决方法是将Uni-Mol和对接工具结合起来：Uni-Mol主要关注结合位置，而对接工具则专注于配体构象。考虑物理/化学约束并端到端地预测结合位也是值得尝试的。我们将进一步的优化作为未来的工作留待探讨。

一些专业术语

预训练和微调

预训练（Pretraining）：在这一阶段，模型会利用大规模的未标记数据进行训练，目的是学习一种良好的数据表示（representation）。这意味着模型会尝试捕捉数据的特征和模式，但在此阶段并没有针对特定任务进行训练。预训练通常使用无监督或自监督学习方法，比如自编码器、预测缺失部分、对比学习等。这一步的目标是为模型提供对数据更全面、更有表现力的理解。
微调（Finetuning）：在预训练完成后，模型通常会在少量的标记数据（有监督数据）上进行微调。这意味着模型在预先学习的表示（representation）的基础上，通过在特定任务的标记数据上进行训练来进一步调整模型参数。微调的目标是使模型更好地适应于所需的任务，例如分类、回归或其他特定的预测任务。通过微调，模型可以更快速地收敛到任务特定的最佳状态，因为它已经通过预训练学到了一些通用的特征。

分子构象数据集

分子构象数据集（Molecular Conformation Dataset）通常指的是包含有关分子构象（即分子的空间排列和几何结构）的数据集合。这类数据集通常用于分子模拟、计算化学和药物设计等领域。

在化学和生物化学中，分子构象是指分子内原子的三维排列方式。分子的构象可以影响其性质、活性和与其他分子的相互作用。因此，了解和研究分子构象对于理解化学反应、药物分子的活性、蛋白质与配体之间的相互作用等具有重要意义。

分子构象数据集可能包含以下内容：

分子的三维坐标：描述原子在空间中的位置。
构象参数：描述分子内部原子之间的角度、键长、二面角等几何特征。
分子间相互作用信息：描述分子之间的相互作用，如氢键、范德华力等。

这些数据集通常通过实验技术（例如X射线晶体学、核磁共振等）或者计算化学方法（例如分子动力学模拟、量子力学计算等）获取。这些数据对于开发分子模型、药物设计和虚拟筛选等领域的研究非常有价值。研究人员可以利用这些数据集来训练模型、验证理论、分析分子间相互作用等，以加深对分子结构和性质的理解。

候选蛋白质口袋数据集

候选蛋白质口袋数据集（Candidate Protein Pocket Dataset）通常指包含潜在活性位点或“口袋”的蛋白质数据集合。这些数据集在生物医学领域、药物设计和生物信息学中很常见。

蛋白质口袋是蛋白质结构中的特定区域，通常是一个凹陷或者腔体，与其他分子（例如药物分子或配体）特定地相互作用。对这些口袋的研究有助于理解蛋白质的功能和药物设计。

候选蛋白质口袋数据集可能包含以下信息：

蛋白质结构数据：涉及蛋白质的三维结构，包括原子坐标、氨基酸序列和蛋白质拓扑学等信息。
口袋的位置和特征：这些数据描述了潜在的活性位点、凹陷或腔体的几何形状、大小、氨基酸残基的组成以及可能与配体相互作用的区域等。
相关配体或小分子的信息：可能包括在这些候选口袋中发现或者预测的配体或药物分子。

这些数据集的构建可能基于实验技术，如X射线晶体学，或基于计算模拟方法，例如蛋白质结构预测或分子对接预测。这些数据集对于药物发现、药物设计、蛋白质-配体相互作用研究以及虚拟筛选等领域非常有价值。科学家可以使用这些数据集来训练模型、预测蛋白质的活性位点、设计新的配体等，以推动药物研发和生物医学研究的进展。

三维位置恢复

三维位置恢复（3D position recovery）是指利用计算方法或机器学习技术从有限的信息中恢复缺失的或未知的分子或物体中原子或点的三维空间位置。这个任务通常出现在分子结构预测、分子模拟、蛋白质结构预测或其他相关领域中。

在化学和生物学领域，研究人员经常使用各种实验和计算方法来确定分子的三维结构。然而，有时候实验数据可能是不完整的，某些原子的位置信息可能无法直接获得。此时，三维位置恢复的任务涉及利用已知信息（例如，其他原子的位置、键长、角度等几何信息）来预测或推断那些缺失的原子的位置。

这种恢复可能会利用各种技术，包括但不限于：

机器学习模型：使用训练好的模型来预测缺失原子的位置，这些模型可能基于大量已知结构的数据进行训练，例如基于神经网络的模型或回归模型。
分子动力学模拟：利用物理模拟和数值算法，根据已知的分子力学规律（如势能函数、力场等）来模拟缺失原子的位置，通过模拟过程中的分子结构变化来推断这些位置。
数据插值和填充：根据已知原子的位置和结构信息，使用插值或填充方法来估计缺失原子的位置。

三维位置恢复的目的是通过合理的推断和预测来完善或补充分子或物体的结构信息，以便更准确地了解分子的性质、功能和行为。这对于药物设计、蛋白质工程以及其他需要了解分子结构的领域非常重要。

掩码原子预测

“掩码原子预测”（Masked atom prediction）是指预测分子结构或蛋白质结构中那些由于某种原因而被“掩盖”或者缺失的原子的位置或属性。这些原子可能因为技术限制、实验数据的不完整性或其他原因而在给定数据中不可见或缺失。

在分子结构研究中，掩码原子预测的任务包括使用已知的分子结构信息，例如已知的原子的位置、键长、角度、分子整体的几何结构等，来预测那些未知或掩盖的原子的位置或其他属性。这可能需要结合先验知识、机器学习算法或其他计算方法来进行推断。

掩码原子预测可能会涉及到多种技术和方法，包括但不限于：

机器学习模型：利用已知结构的数据进行训练，以预测掩盖的原子的位置或属性。这些模型可能包括神经网络、回归模型或其他预测模型。
基于相似性或模式的推断：利用已知结构中类似部分的信息，来推断掩盖原子的位置。例如，可以根据相似的结构片段进行推断。
结合多种数据源的插值和填充：结合已知信息和分子特性，使用插值或填充方法来估计缺失或被掩盖的原子的位置或属性。

掩码原子预测的目的是尽可能准确地预测那些在给定数据中不可见或缺失的分子结构信息，以提高对分子结构和特性的全面理解。这对于药物设计、生物医学研究和其他需要深入了解分子结构的领域具有重要意义。

静止动作原理

静止动作原理（Stationary-action principle）是物理学中一个基本的概念，也被称为最小作用量原理或哈密顿原理。在经典力学和量子力学中都有应用。

这个原理的基本思想是，在所有可能的物理过程路径中，实际发生的路径将是使某个物理量（称为作用量）取得极值的路径。在经典力学中，这个物理量通常是拉格朗日量与时间的积分，而在量子力学中，它则是波函数的泛函。通常情况下，作用量会取到最小值，因此这个原理有时也被称为最小作用量原理。然而，并不是所有的系统都满足最小作用量原理，某些情况下，作用量可能会取到最大值或者其他的极值。

简而言之，静止动作原理提供了一种确定物体如何运动的方法，即使我们不知道力的作用情况。通过找到使得作用量达到极值的路径，我们可以预测物体在未来某一时刻的位置和速度。

ABSTRACT

INTRODUCTION

UNI-MOL FRAMEWORK

BACKBONE

Architecture Overview

Encode 3D positions

Predict 3D positions

PRETRAINING

Large-Scale dataset

Pretraining strategies

FINETUNING

EXPERIMENTS

MOLECULAR PROPERTY PREDICTION

Datasets and setup

Baselines

Results

MOLECULAR CONFORMATION GENERATION

POCKET PROPERTY PREDICTION

Datasets and setup

Baselines

Results

PROTEIN-LIGAND BINDING POSE PREDICTION （重点）

Datasets and setup

Baselines

Results

RELATED WORK

Representation learning

Molecular representation learning

SE(3)-Equivariant models

Pocket druggability prediction

Protein-ligand binding pose prediction (重点)

Conclusion

附录E MORE RESULTS FOR BINDING POSE PREDICTION

Efficiency benchmark

Visualization

Ligand conformation performance

一些专业术语

预训练和微调

分子构象数据集

候选蛋白质口袋数据集

三维位置恢复

掩码原子预测

静止动作原理

Other-Resources

DIFFDOCK DIFFUSION STEPS, TWISTS, AND TURNS FOR MOLECULAR DOCKING