HyperAIHyperAI

Command Palette

Search for a command to run...

Un Algorithme Acteur-Critique pour la Prédiction de Séquences

Dzmitry Bahdanau Philemon Brakel Ryan Lowe Joelle Pineau Kelvin Xu Anirudh Goyal Aaron Courville Yoshua Bengio

Résumé

Nous présentons une approche pour l'entraînement de réseaux neuronaux afin de générer des séquences en utilisant les méthodes acteur-critique issues de l'apprentissage par renforcement (RL). Les méthodes actuelles d'entraînement basées sur la vraisemblance logarithmique sont limitées par la discordance entre leurs modes d'entraînement et de test, car les modèles doivent générer des jetons conditionnés par leurs propres prédictions antérieures plutôt que par les jetons de vérité terrain. Nous abordons ce problème en introduisant un réseau \textit{critique} qui est entraîné pour prédire la valeur d'un jeton de sortie, étant donné la politique d'un réseau \textit{acteur}. Cela aboutit à une procédure d'entraînement beaucoup plus proche de la phase de test, et nous permet d'optimiser directement pour un score spécifique à la tâche, comme le BLEU. De manière cruciale, puisque nous utilisons ces techniques dans le cadre de l'apprentissage supervisé plutôt que dans le cadre traditionnel de l'apprentissage par renforcement, nous conditionnons le réseau critique sur la sortie de vérité terrain. Nous démontrons que notre méthode améliore les performances tant sur une tâche synthétique que pour la traduction automatique allemand-anglais. Notre analyse ouvre la voie à l'application de telles méthodes dans des tâches de génération de langage naturel, telles que la traduction automatique, la génération de légendes et le modèle dialogue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp