G2GT : Prédiction de la rétro-synthèse avec un réseau neuronal à attention graphique et l'auto-entraînement

La prédiction de rétro-synthèse est l'un des défis fondamentaux en chimie organique et dans les domaines connexes. L'objectif est de trouver des molécules réactives capables de synthétiser des molécules-produits. Pour résoudre cette tâche, nous proposons un nouveau modèle de transformation graphe-vers-graphe, G2GT, dans lequel l'encodeur et le décodeur de graphe sont construits sur la base de la structure standard du transformer. Nous montrons également que l'auto-apprentissage, une méthode puissante d'augmentation de données qui utilise des données non étiquetées de molécules, peut améliorer considérablement les performances du modèle. Inspirés par l'étiquette du type de réaction et l'apprentissage par ensemble, nous avons proposé une nouvelle méthode d'ensemble faible pour augmenter la diversité. Nous avons combiné les méthodes de recherche en faisceau (beam search), noyau (nucleus) et échantillonnage top-k pour améliorer davantage la diversité d'inférence et avons proposé un algorithme de classement simple pour récupérer les 10 résultats finaux les plus pertinents. Nous avons obtenu de nouveaux résultats d'état de l'art sur le jeu de données USPTO-50K, avec une précision top-1 de 54 %, ainsi que sur le jeu de données plus important USPTO-full, avec une précision top-1 de 50 %, et des résultats compétitifs en termes de top-10.