Préformation du Modèle de Canal Bruit pour le Dialogue Orienté vers des Tâches

Le décodage direct pour les dialogues orientés vers des tâches est connu pour souffrir de l'effet d'explication alternative (explaining-away effect), se manifestant par des modèles qui préfèrent des réponses courtes et génériques. Dans cet article, nous plaidons en faveur de l'utilisation du théorème de Bayes pour factoriser la tâche de dialogue en deux modèles : la distribution du contexte conditionnée à la réponse et la loi a priori de la réponse elle-même. Cette approche, une mise en œuvre du modèle de canal bruyant, atténue non seulement l'effet d'explication alternative mais permet également l'intégration rigoureuse de grands modèles préentraînés pour la loi a priori de la réponse. Nous présentons des expérimentations exhaustives montrant que le modèle de canal bruyant décode des réponses meilleures que celles obtenues par le décodage direct et qu'une stratégie de préentraînement en deux étapes, utilisant à la fois des données de dialogue ouvert et des données de dialogue orienté vers des tâches, améliore les performances par rapport aux modèles initialisés aléatoirement.