Command Palette
Search for a command to run...
Pertes de Prédiction Structurée Classiques pour l'Apprentissage Séquence à Séquence
Pertes de Prédiction Structurée Classiques pour l'Apprentissage Séquence à Séquence
Sergey Edunov; Myle Ott; Michael Auli; David Grangier; Marc'Aurelio Ranzato
Résumé
De nombreux travaux récents ont été consacrés à l'entraînement de modèles d'attention neuronale au niveau des séquences, en utilisant soit des méthodes de type apprentissage par renforcement, soit en optimisant le faisceau. Dans cet article, nous passons en revue une gamme de fonctions objectif classiques largement utilisées pour entraîner des models linéaires à la prédiction structurée et les appliquons aux modèles neuronaux de séquence à séquence. Nos expériences montrent que ces pertes peuvent se comporter de manière surprenante, légèrement surpassant l'optimisation par recherche dans le faisceau dans un contexte comparable. Nous rapportons également de nouveaux résultats d'état de l'art tant pour la traduction allemand-anglais du IWSLT'14 que pour la génération résumative abstraite du Gigaword. Pour la tâche plus importante de traduction anglais-français du WMT'14, l'entraînement au niveau des séquences atteint 41,5 BLEU, ce qui est comparable à l'état de l'art.