8 天前

Uni-Mol:一种通用的3D分子表征学习框架

{Guolin Ke, Linfeng Zhang, Zhewei Wei, Hongteng Xu, Hang Zheng, Qiankun Ding, Zhifeng Gao, Gengmo Zhou}
Uni-Mol:一种通用的3D分子表征学习框架
摘要

分子表征学习(Molecular Representation Learning, MRL)因其在有限监督数据条件下实现有效学习的能力,近年来在药物设计等应用中受到广泛关注。在大多数现有的MRL方法中,分子通常被建模为一维序列标记(1D sequential tokens)或二维拓扑图(2D topology graphs),这种处理方式限制了模型对三维空间信息的利用能力,尤其使得三维几何结构的预测或生成任务几乎无法实现。为此,我们提出Uni-Mol——一种通用的分子表征学习框架,显著拓展了MRL方法的表征能力与应用范围。Uni-Mol由两个采用相同SE(3)-等变Transformer架构的模型组成:其一为基于2.09亿个分子构象预训练的分子预训练模型;其二为基于300万个候选蛋白口袋数据训练的口袋预训练模型。这两个模型可独立用于各类下游任务,在涉及蛋白-配体结合的任务中则协同使用。通过有效融合三维空间信息,Uni-Mol在15项分子性质预测任务中,有14项超越了当前最先进(SOTA)水平。此外,Uni-Mol在多项三维空间相关任务中表现优异,包括蛋白-配体结合构象预测、分子构象生成等。最后,我们验证了Uni-Mol在小样本学习场景下的适用性,成功应用于口袋可成药性预测等数据稀缺任务。相关模型与数据将公开发布于GitHub:https://github.com/dptech-corp/Uni-Mol。

Uni-Mol:一种通用的3D分子表征学习框架 | 最新论文 | HyperAI超神经