Apprentissage de dialogue avec enseignement et feedback humains dans les systèmes de dialogue orientés tâche entraînables de bout en bout

Dans cette étude, nous présentons une méthode d'apprentissage hybride pour former des systèmes de dialogue orientés tâche par le biais d'interactions en ligne avec les utilisateurs. Les méthodes populaires pour l'apprentissage de dialogues orientés tâche incluent l'application de l'apprentissage par renforcement avec des retours d'utilisateurs sur des modèles pré-entraînés sous supervision. L'efficacité d'une telle méthode d'apprentissage peut être compromise par la discordance entre la distribution des états de dialogue lors de l'entraînement hors ligne et celle lors de l'apprentissage interactif en ligne. Pour relever ce défi, nous proposons une méthode d'apprentissage hybride combinant apprentissage par imitation et apprentissage par renforcement, permettant à un agent de dialogue d'apprendre efficacement à partir de ses interactions avec les utilisateurs, en tirant profit de l'enseignement humain et des retours. Nous avons conçu un agent de dialogue orienté tâche basé sur un réseau neuronal qui peut être optimisé dans son ensemble grâce à la méthode d'apprentissage proposée. Les résultats expérimentaux montrent que notre agent de dialogue end-to-end peut apprendre efficacement à partir des erreurs qu'il commet grâce à l'apprentissage par imitation à partir de l'enseignement des utilisateurs. L'utilisation de l'apprentissage par renforcement avec des retours d'utilisateurs après la phase d'apprentissage par imitation améliore encore davantage la capacité de l'agent à accomplir une tâche avec succès.