Fusion de connaissances provenant de deux enseignants pour un système de dialogue orienté vers une tâche avec une formation adversaire

Le défi consistant à réaliser à la fois la complétion des tâches par interrogation d'une base de connaissances et à générer des réponses humaines naturelles dans les systèmes de dialogue orientés vers des tâches attire un intérêt croissant dans la recherche. Dans cet article, nous proposons un cadre d’apprentissage {« Deux-Enseignants-Un-Élève »} (TTOS, Two-Teacher One-Student) pour les dialogues orientés vers des tâches, visant à récupérer simultanément des entités précises depuis la base de connaissances et à générer des réponses humaines naturelles. Le cadre TTOS intègre les connaissances provenant de deux réseaux enseignants, qui fournissent conjointement une guidance complète afin de construire un système de dialogue orienté vers des tâches de haute qualité (réseau élève). Chaque réseau enseignant est entraîné par apprentissage par renforcement à l’aide d’une récompense spécifique à l’objectif, ce qui peut être considéré comme un expert visant cet objectif, transférant ainsi ses caractéristiques spécialisées au réseau élève. Contrairement à l’approche classique d’apprentissage enseignant-élève, qui force la sortie du réseau élève à imiter exactement les sorties « douces » produites par les réseaux enseignants, nous introduisons deux discriminateurs, inspirés du cadre des réseaux antagonistes génératifs (GAN), pour transférer les connaissances depuis les deux enseignants vers l’élève. L’utilisation de discriminateurs affranchit l’élève de l’attachement rigide aux enseignants. Des expériences étendues sur deux jeux de données de référence (CamRest et In-Car Assistant) démontrent que TTOS surpasse significativement les méthodes de base.