Prédiction de réactions rétrosynthétiques à l'aide de modèles de séquence à séquence neuronaux

Nous décrivons un modèle entièrement piloté par les données qui apprend à effectuer une tâche de prédiction de réaction rétrosynthétique, traitée comme un problème de mapping séquence-à-séquence. Le modèle formé d'une extrémité à l'autre adopte une architecture encodeur-décodage composée de deux réseaux neuronaux récurrents, une approche qui a déjà fait ses preuves dans la résolution d'autres tâches de prédiction séquence-à-séquence telles que la traduction automatique. Le modèle est entraîné sur 50 000 exemples expérimentaux de réactions provenant des brevets américains, couvrant 10 types de réactions largement utilisés par les chimistes médicinaux. Nous constatons que notre modèle se compare favorablement à un modèle de référence basé sur des règles d'expert, et surmonte également certaines limitations liées aux systèmes experts basés sur des règles ainsi qu'à toute approche d'apprentissage automatique contenant un composant basé sur des règles d'expert. Notre modèle constitue une étape importante vers la résolution du défi posé par l'analyse rétrosynthétique computationnelle.