
摘要
合成规划和反应结果预测是计算机辅助有机化学中的两个基本问题,近年来出现了多种数据驱动的方法。将每个问题建模为从SMILES到SMILES的翻译的自然语言方法,导致了一种简单的端到端公式,减少了数据预处理的需求,并且使得可以使用经过良好优化的机器翻译模型架构。然而,SMILES表示并不是一种高效的分子结构信息捕捉方式,这一点从通过SMILES增强来提升经验性能的成功中得到了证明。在此,我们描述了一种新颖的Graph2SMILES模型,该模型结合了Transformer模型在文本生成方面的强大能力以及分子图编码器的置换不变性,从而减轻了对输入数据增强的需求。作为端到端架构,Graph2SMILES可以在任何涉及分子到分子转换的任务中直接替代Transformer。在我们的编码器中,注意力增强的有向消息传递神经网络(D-MPNN)捕获局部化学环境,而全局注意力编码器则允许长程和分子间相互作用,并通过图感知的位置嵌入进行增强。Graph2SMILES在USPTO_480k和USPTO_STEREO数据集上的反应结果预测任务中分别提高了1.7%和1.9%的Top-1准确率,在USPTO_50k数据集上的一步逆合成任务中提高了9.8%的Top-1准确率。