AI颠覆药物研发:生成式AI精准推理分子合成路径
NVIDIA推出名为ReaSyn的新型生成式AI模型,专为预测分子合成路径而设计,旨在解决分子设计中“可合成性”这一核心难题。在药物、化学品和材料研发中,一个分子即使理论性能优异,若无法实际合成也毫无价值。ReaSyn通过借鉴大语言模型(LLM)中的“思维链”(Chain-of-Thought, CoT)推理机制,将合成路径建模为“反应链”(Chain-of-Reaction, CoR),显著提升了路径预测的准确性和可解释性。 ReaSyn采用线性序列表示合成路径,每一步明确包含反应物、反应规则和产物。反应物与产物以SMILES字符串表示,并用特殊标记界定;反应规则则以单一反应类别令牌表示。这种结构不仅模拟了化学家逐步推理的思维过程,还支持在每一步进行中间监督,从而更有效地学习化学反应规律,提升多步合成路径生成的可靠性。 作为自回归生成模型,ReaSyn从简单分子构建块出发,逐步推导出目标分子,类似LLM通过中间推理步骤得出最终答案。该框架不仅能高效完成逆合成规划,还能将难以合成的分子“投影”为可合成的类似物,实现实际可行的分子设计。 为增强生成能力,ReaSyn引入了LLM中的先进推理策略。通过基于结果的强化学习微调(GRPO),模型可探索多种合成路径,并依据最终产物与目标分子的相似度获得奖励,从而激发多样化探索。同时,结合目标导向的测试时搜索(如束搜索),ReaSyn能根据预设化学性质(如活性、稳定性)引导路径生成,实现功能优化。 实验表明,ReaSyn在逆合成规划任务中成功率高达76.8%,显著优于SynNet、SynFormer等现有方法。在可合成分子优化任务中,其平均得分达0.638,优于Graph GA-SF等基线模型。此外,ReaSyn还能在可合成空间中探索分子邻域,用于“命中分子扩展”,发现多样且可合成的候选化合物。 ReaSyn的推出,标志着AI在化学合成领域的推理能力迈上新台阶。它不仅提升了生成分子的可实现性,还为药物发现提供了高效、智能的工具,助力科学家在庞大而复杂的可合成化学空间中高效导航。相关论文已发布于arXiv,代码开源于GitHub。