HyperAIHyperAI
il y a 2 mois

Le Meilleur des Deux Mondes : Transfert de Connaissances du Apprentissage Discriminant à un Modèle de Dialogue Visuel Génératif

Jiasen Lu; Anitha Kannan; Jianwei Yang; Devi Parikh; Dhruv Batra
Le Meilleur des Deux Mondes : Transfert de Connaissances du Apprentissage Discriminant à un Modèle de Dialogue Visuel Génératif
Résumé

Nous présentons un nouveau cadre d'entraînement pour les modèles de séquence neuronaux, en particulier pour la génération de dialogues ancrés. Le paradigme d'entraînement standard pour ces modèles est l'estimation du maximum de vraisemblance (EMV), ou la minimisation de l'entropie croisée des réponses humaines. Dans divers domaines, un problème récurrent avec les modèles de dialogue génératifs neuronaux entraînés par EMV (G) est qu'ils ont tendance à produire des réponses « sûres » et génériques (« Je ne sais pas », « Je ne peux pas dire »). En revanche, les modèles de dialogue discriminants (D) qui sont entraînés pour classer une liste de réponses humaines candidates surpassent leurs homologues génératifs ; en termes de métriques automatiques, de diversité et d'information contenue dans les réponses. Cependant, D n'est pas utile en pratique car il ne peut pas être déployé pour avoir des conversations réelles avec les utilisateurs.Notre travail vise à combiner le meilleur des deux mondes — l'utilité pratique de G et les performances élevées de D — grâce au transfert de connaissances de D vers G. Notre contribution principale est un modèle visuel de dialogue génératif entièrement entraînable par descente de gradient, où G reçoit des gradients provenant de D sous forme d'une perte perceptive (et non antagoniste) de la séquence échantillonnée par G. Nous utilisons l'approximation Gumbel-Softmax (GS) récemment proposée pour la distribution discrète — plus précisément, un RNN augmenté par une série d'échantillonneurs GS, couplé avec l'estimateur de gradient direct pour permettre la différentiabilité totale. Nous introduisons également un encodeur plus puissant pour le dialogue visuel et employons un mécanisme d'auto-attention pour l'encodage des réponses ainsi qu'une perte d'apprentissage par métrique afin d'aider D à mieux capturer les similarités sémantiques dans les réponses.Dans l'ensemble, notre modèle proposé surpasse significativement l'état de l'art sur le jeu de données VisDial (avec une amélioration de 2,67 % sur recall@10). Le code source peut être téléchargé depuis https://github.com/jiasenlu/visDial.pytorch.

Le Meilleur des Deux Mondes : Transfert de Connaissances du Apprentissage Discriminant à un Modèle de Dialogue Visuel Génératif | Articles de recherche récents | HyperAI