MDD-Eval : Auto-entraînement sur des données augmentées pour l'évaluation de dialogues multi-domaines

Les chatbots sont conçus pour mener des conversations ressemblant à celles des humains dans divers domaines, tels que les échanges informels, l’échange de connaissances ou les conversations ancrées dans un personnage. Pour évaluer la qualité de ces agents conversationnels, un évaluateur de dialogue doit être capable d’effectuer une évaluation à travers plusieurs domaines. Toutefois, la plupart des métriques d’évaluation automatique de dialogue (ADMs) les plus avancées actuellement ne sont pas conçues pour une évaluation multi-domaines. Inspirés par ce défi, nous proposons un cadre général et robuste, appelé MDD-Eval, pour répondre à cette problématique. Plus précisément, nous entraînons d’abord un évaluateur « professeur » à l’aide de données annotées par des humains afin qu’il acquière une compétence de notation permettant de distinguer les bonnes réponses de dialogue des mauvaises dans un domaine spécifique. Ensuite, nous appliquons une stratégie d’apprentissage auto-supervisé pour entraîner un nouvel évaluateur à partir de données multi-domaines annotées par le professeur, ce qui permet à ce dernier de généraliser efficacement à plusieurs domaines. Le cadre MDD-Eval est évalué de manière extensive sur six benchmarks d’évaluation de dialogue. Les résultats expérimentaux montrent que MDD-Eval atteint des performances solides, avec une amélioration absolue de 7 % par rapport aux ADMs les plus avancés en termes de corrélation de Spearman moyenne sur l’ensemble des benchmarks d’évaluation.