GALAXY : Un Modèle Pré-entraîné Génératif pour le Dialogue Orienté vers les Tâches avec Apprentissage Semi-supervisé et Injection de Politique Explicite

Les modèles pré-entraînés ont prouvé leur efficacité pour améliorer les systèmes de dialogue orientés vers des tâches. Cependant, les méthodes actuelles de pré-entraînement se concentrent principalement sur l'amélioration des tâches de compréhension et de génération de dialogues, négligeant ainsi l'exploitation de la politique de dialogue. Dans cet article, nous proposons GALAXY, un nouveau modèle de dialogue pré-entraîné qui apprend explicitement la politique de dialogue à partir de dialogues étiquetés limités et de grands corpus de dialogues non étiquetés grâce à l'apprentissage semi-supervisé. Plus précisément, nous introduisons une tâche de prédiction d'actes de dialogue pour l'optimisation de la politique lors du pré-entraînement et utilisons un terme de régularisation consistante pour affiner la représentation apprise avec l'aide des dialogues non étiquetés. Nous mettons également en œuvre un mécanisme d'activation pour pondérer les échantillons appropriés de dialogues non étiquetés. Les résultats empiriques montrent que GALAXY améliore considérablement les performances des systèmes de dialogue orientés vers des tâches et atteint des résultats nouveaux et meilleurs que l'état actuel de l'art sur des ensembles de données de référence : In-Car, MultiWOZ2.0 et MultiWOZ2.1, en améliorant leurs scores combinés bout-en-bout respectivement de 2,5, 5,3 et 5,5 points. Nous montrons également que GALAXY possède une capacité plus forte en apprentissage par quelques exemples (few-shot) que les modèles existants dans diverses configurations à faibles ressources.