摘要
作为化学领域的一个基础性问题,逆合成(retrosynthesis)旨在为特定目标化合物设计反应路径及中间体。人工智能(AI)辅助逆合成的目标是通过学习已有化学反应数据,实现该过程的自动化预测。尽管已有多种模型在自动化逆合成方面展现出潜力,但预测准确率仍需进一步提升,以达到实际应用的水平。为此,我们提出一种基于局部逆合成思想的新型框架——LocalRetro。该框架的灵感来源于化学直觉:在化学反应过程中,分子结构的变化通常局限于局部区域。这与现有绝大多数逆合成方法形成对比——后者多基于分子的全局结构来推测反应物,往往包含与反应机制无直接关联的精细结构细节。而本研究提出的局部概念,引导我们构建仅涉及原子与键级编辑的局部反应模板。考虑到远程官能团虽非主要影响因素,但仍可能通过次级作用影响整体反应路径,我们进一步引入全局注意力机制,以捕捉非局部效应,从而完善局部编码的逆合成模型。实验结果表明,在包含50,016个反应的USPTO-50K数据集上,我们的模型在Top-1和Top-5预测中的往返准确率(round-trip accuracy)分别达到89.5%和99.2%,展现出优异的性能。在更大规模的数据集UTPTO-MIT(含479,035个反应)上,模型同样表现出色,Top-1和Top-5的往返准确率分别为87.0%和97.4%,验证了其在大规模数据上的可扩展性与鲁棒性。此外,我们通过真实文献案例,成功预测了五种药物候选分子的合成路径,进一步证明了LocalRetro在实际合成路线设计中的应用价值。