Prédiction profonde de réaction rétro-synthétique utilisant la réactivité locale et l’attention globale
En tant que problème fondamental en chimie, la rétro-synthèse vise à concevoir des voies réactionnelles et des intermédiaires pour un composé cible. L'objectif de la rétro-synthèse assistée par intelligence artificielle (IA) est d'automatiser ce processus en apprenant à partir des réactions chimiques antérieures afin de générer de nouvelles prédictions. Bien que plusieurs modèles aient démontré leur potentiel pour la rétro-synthèse automatisée, il reste un besoin important d'améliorer davantage la précision des prédictions jusqu'à un niveau plus pratique. Dans cette étude, nous proposons un cadre de rétro-synthèse locale appelé LocalRetro, inspiré de l'intuition chimique selon laquelle les modifications moléculaires se produisent principalement de manière locale au cours des réactions chimiques. Ce principe diffère de presque toutes les méthodes existantes de rétro-synthèse, qui suggèrent des réactifs en se basant sur les structures globales des molécules, souvent riches en détails fins non directement liés à la réaction. Ce concept local conduit à l’utilisation de templates réactionnels locaux, impliquant des modifications d’atomes et de liaisons. Étant donné que les groupes fonctionnels éloignés peuvent également influencer le chemin réactionnel dans une certaine mesure, le modèle de rétro-synthèse localement encodé est par la suite affiné pour tenir compte des effets non locaux via un mécanisme d’attention globale. Notre modèle atteint une précision prometteuse de 89,5 % et 99,2 % en termes de précision « round-trip » aux prédictions top-1 et top-5 sur le jeu de données USPTO-50K comprenant 50 016 réactions. Nous démontrons également la validité de LocalRetro sur un grand jeu de données contenant 479 035 réactions (UTPTO-MIT), avec une précision round-trip top-1 et top-5 comparable de 87,0 % et 97,4 %, respectivement. L’application pratique du modèle est également illustrée par la prédiction correcte des voies de synthèse de cinq molécules candidates à des médicaments, issues de publications scientifiques diverses.