Vous Me Parlez ? Génération de Dialogue Visuel Raisonné par Apprentissage Adversarial

La tâche de Dialogue Visuel exige qu'un agent participe à une conversation avec un humain au sujet d'une image. Elle représente une extension de la tâche de Réponse aux Questions Visuelles, dans laquelle l'agent doit répondre à une question sur une image, mais en tenant compte du dialogue précédent qui a eu lieu. Le défi principal du Dialogue Visuel réside donc dans le maintien d'un dialogue cohérent et naturel tout en continuant à répondre correctement aux questions. Nous présentons une nouvelle approche qui combine l'Apprentissage par Renforcement et les Réseaux Adversariaux Génératifs (GANs) pour générer des réponses plus proches de celles d'un humain aux questions. Le GAN aide à surmonter la relative rareté des données d'entraînement et la tendance des approches basées sur le MLE (Maximum Likelihood Estimation) à produire des réponses excessivement concises. De manière cruciale, le GAN est étroitement intégré au mécanisme d'attention qui génère des raisons interprétables par un humain pour chaque réponse. Cela signifie que le modèle discriminatif du GAN a pour mission d'évaluer si une réponse candidate a été générée par un humain ou non, en se basant sur la raison fournie. C'est important car cela pousse le modèle génératif à produire des réponses de haute qualité bien soutenues par le raisonnement associé. La méthode obtient également des résultats de pointe sur le banc d'essai principal.