HyperAIHyperAI
il y a 2 mois

Un Algorithme Acteur-Critique pour la Prédiction de Séquences

Dzmitry Bahdanau; Philemon Brakel; Kelvin Xu; Anirudh Goyal; Ryan Lowe; Joelle Pineau; Aaron Courville; Yoshua Bengio
Un Algorithme Acteur-Critique pour la Prédiction de Séquences
Résumé

Nous présentons une approche pour l'entraînement de réseaux neuronaux afin de générer des séquences en utilisant les méthodes acteur-critique issues de l'apprentissage par renforcement (RL). Les méthodes actuelles d'entraînement basées sur la vraisemblance logarithmique sont limitées par la discordance entre leurs modes d'entraînement et de test, car les modèles doivent générer des jetons conditionnés par leurs propres prédictions antérieures plutôt que par les jetons de vérité terrain. Nous abordons ce problème en introduisant un réseau \textit{critique} qui est entraîné pour prédire la valeur d'un jeton de sortie, étant donné la politique d'un réseau \textit{acteur}. Cela aboutit à une procédure d'entraînement beaucoup plus proche de la phase de test, et nous permet d'optimiser directement pour un score spécifique à la tâche, comme le BLEU. De manière cruciale, puisque nous utilisons ces techniques dans le cadre de l'apprentissage supervisé plutôt que dans le cadre traditionnel de l'apprentissage par renforcement, nous conditionnons le réseau critique sur la sortie de vérité terrain. Nous démontrons que notre méthode améliore les performances tant sur une tâche synthétique que pour la traduction automatique allemand-anglais. Notre analyse ouvre la voie à l'application de telles méthodes dans des tâches de génération de langage naturel, telles que la traduction automatique, la génération de légendes et le modèle dialogue.

Un Algorithme Acteur-Critique pour la Prédiction de Séquences | Articles de recherche récents | HyperAI