Pertes de Prédiction Structurée Classiques pour l'Apprentissage Séquence à Séquence

De nombreux travaux récents ont été consacrés à l'entraînement de modèles d'attention neuronale au niveau des séquences, en utilisant soit des méthodes de type apprentissage par renforcement, soit en optimisant le faisceau. Dans cet article, nous passons en revue une gamme de fonctions objectif classiques largement utilisées pour entraîner des models linéaires à la prédiction structurée et les appliquons aux modèles neuronaux de séquence à séquence. Nos expériences montrent que ces pertes peuvent se comporter de manière surprenante, légèrement surpassant l'optimisation par recherche dans le faisceau dans un contexte comparable. Nous rapportons également de nouveaux résultats d'état de l'art tant pour la traduction allemand-anglais du IWSLT'14 que pour la génération résumative abstraite du Gigaword. Pour la tâche plus importante de traduction anglais-français du WMT'14, l'entraînement au niveau des séquences atteint 41,5 BLEU, ce qui est comparable à l'état de l'art.