Transformateur amélioré par graphe moléculaire pour la prédiction de réaction rétro-synthétique

Face à un nombre massif de voies de synthèse possibles en chimie, la prédiction de rétro-synthèse reste un défi pour les chercheurs. Récemment, cette tâche a été reformulée comme un problème de traduction automatique (Machine Translation, MT). En effet, puisque chaque molécule peut être représentée par une chaîne SMILES (Simplified Molecular-Input Line-Entry System), le processus de synthèse est analogué à une traduction linguistique allant des réactifs vers les produits. Toutefois, les modèles de MT appliqués aux données SMILES négligent généralement les informations relatives aux liaisons atomiques naturelles et à la topologie moléculaire. Dans cet article, nous proposons un cadre d’apprentissage profond appelé Graph Enhanced Transformer (GET), qui intègre à la fois les informations séquentielles et graphiques des molécules. Nous présentons quatre architectures différentes de GET, toutes fondées sur une fusion entre les représentations SMILES et des embeddings atomiques appris à partir d’un réseau de neurones graphiques (GNN) amélioré. Les résultats expérimentaux montrent que notre modèle surpasse significativement le modèle Transformer en termes de précision sur les tests.