2 个月前

双视角分子预训练

Jinhua Zhu; Yingce Xia; Tao Qin; Wengang Zhou; Houqiang Li; Tie-Yan Liu
双视角分子预训练
摘要

受其在自然语言处理和计算机视觉领域取得的成功启发,预训练在化学信息学和生物信息学中,特别是在基于分子的任务中引起了广泛关注。分子可以通过图(原子通过键连接)或SMILES序列(应用特定规则对分子图进行深度优先搜索得到的序列)来表示。现有的分子预训练工作仅使用图表示或SMILES表示。在本研究中,我们提出利用这两种表示方法,并设计了一种新的预训练算法——双视图分子预训练(简称DMP),该算法能够有效结合两种分子表示方法的优势。DMP模型由两个分支组成:一个以分子的SMILES序列为输入的Transformer分支,以及一个以分子图为输入的图神经网络(GNN)分支。DMP的训练包含三个任务:(1) 通过Transformer分支预测SMILES序列中的掩码标记;(2) 通过GNN分支预测分子图中的掩码原子;(3) 最大化由Transformer和GNN分支分别输出的两个高层次表示之间的一致性。预训练完成后,我们可以根据经验结果推荐使用Transformer分支、GNN分支或两者用于下游任务。DMP在九个分子性质预测任务上进行了测试,并在其中七个任务上取得了最先进的性能。此外,我们在三个逆合成任务上测试了DMP,并同样取得了最先进的结果。

双视角分子预训练 | 最新论文 | HyperAI超神经