HyperAIHyperAI

Command Palette

Search for a command to run...

Pertes de Prédiction Structurée Classiques pour l'Apprentissage Séquence à Séquence

Sergey Edunov; Myle Ott; Michael Auli; David Grangier; Marc'Aurelio Ranzato

Résumé

De nombreux travaux récents ont été consacrés à l'entraînement de modèles d'attention neuronale au niveau des séquences, en utilisant soit des méthodes de type apprentissage par renforcement, soit en optimisant le faisceau. Dans cet article, nous passons en revue une gamme de fonctions objectif classiques largement utilisées pour entraîner des models linéaires à la prédiction structurée et les appliquons aux modèles neuronaux de séquence à séquence. Nos expériences montrent que ces pertes peuvent se comporter de manière surprenante, légèrement surpassant l'optimisation par recherche dans le faisceau dans un contexte comparable. Nous rapportons également de nouveaux résultats d'état de l'art tant pour la traduction allemand-anglais du IWSLT'14 que pour la génération résumative abstraite du Gigaword. Pour la tâche plus importante de traduction anglais-français du WMT'14, l'entraînement au niveau des séquences atteint 41,5 BLEU, ce qui est comparable à l'état de l'art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp