Formation au niveau des séquences avec des réseaux de neurones récurrents

De nombreuses applications de traitement automatique des langues naturelles utilisent des modèles de langage pour générer du texte. Ces modèles sont généralement formés pour prédire le mot suivant d'une séquence, en se basant sur les mots précédents et un certain contexte, comme une image. Cependant, lors des tests, le modèle est censé générer la séquence complète à partir de zéro. Cette discordance rend la génération fragile, car les erreurs peuvent s'accumuler au fur et à mesure. Nous abordons ce problème en proposant un nouvel algorithme d'entraînement au niveau de la séquence qui optimise directement la métrique utilisée lors des tests, telle que BLEU ou ROUGE. Sur trois tâches différentes, notre approche surpasses plusieurs bases de comparaison solides pour la génération gloutonne (greedy generation). La méthode reste également compétitive lorsque ces bases de comparaison utilisent une recherche en faisceau (beam search), tout en étant plusieurs fois plus rapide.