Apprentissage antagoniste pour la génération de dialogues neuronaux

Dans cet article, en s'inspirant de l'intuition tirée du test de Turing, nous proposons d'utiliser l'entraînement par apprentissage antagoniste pour la génération de dialogues dans un domaine ouvert : le système est entraîné à produire des séquences indiscernables des énoncés de dialogue générés par des humains. Nous formulons cette tâche comme un problème d'apprentissage par renforcement (AR) où nous entraînons conjointement deux systèmes : un modèle génératif pour produire des séquences de réponses et un discriminateur – analogue à l'évaluateur humain dans le test de Turing – pour distinguer les dialogues générés par des humains de ceux produits par une machine. Les sorties du discriminateur sont ensuite utilisées comme récompenses pour le modèle génératif, incitant le système à générer des dialogues qui ressemblent au plus près aux dialogues humains.En complément de l'entraînement antagoniste, nous décrivons un modèle d'{\em évaluation antagoniste} qui utilise le succès dans la tromperie d'un adversaire comme métrique d'évaluation du dialogue, tout en évitant plusieurs pièges potentiels. Les résultats expérimentaux sur plusieurs métriques, y compris l'évaluation antagoniste, montrent que le système entraîné de manière antagoniste génère des réponses de meilleure qualité que les méthodes précédentes utilisées comme points de référence.