MARS : Un modèle autorégressif basé sur des motifs pour la prédiction de rétro-synthèse

La rétro-synthèse est une tâche majeure dans la découverte de médicaments. De nombreuses approches existantes la formulent comme un problème de génération de graphes. Plus précisément, ces méthodes identifient d'abord le centre de réaction et décomposent la molécule cible en conséquence pour générer des synthons. Les réactifs sont générés soit en ajoutant des atomes séquentiellement aux graphes de synthons, soit en ajoutant directement des groupes partants appropriés. Cependant, les deux stratégies souffrent de limitations : l'ajout d'atomes entraîne une longue séquence de prédiction qui augmente la difficulté de génération, tandis que l'ajout de groupes partants ne peut considérer que ceux présents dans l'ensemble d'apprentissage, ce qui entraîne une mauvaise généralisation. Dans cet article, nous proposons un nouveau modèle de génération de graphes bout-à-bout pour la prédiction de rétro-synthèse, qui identifie séquentiellement le centre de réaction, génère les synthons et ajoute des motifs aux synthons pour générer les réactifs. Étant donné que les motifs chimiquement significatifs sont plus grands que les atomes mais plus petits que les groupes partants, notre méthode bénéficie d'une complexité prédictive inférieure à celle de l'ajout d'atomes et offre une meilleure généralisation que l'ajout de groupes partants. Les expériences menées sur un ensemble de données de référence montrent que le modèle proposé surpasse significativement les algorithmes précédemment considérés comme étant à l'état de l'art.