Indicateurs proxy pour la qualité des dialogues en domaine ouvert

L’évaluation automatique des dialogues dans un domaine ouvert reste un défi largement non résolu. Malgré l’abondance de travaux réalisés dans ce domaine, les jugements humains sont encore nécessaires pour évaluer la qualité des dialogues. En conséquence, effectuer de telles évaluations à grande échelle s’avère généralement coûteuse. Ce travail explore l’utilisation d’un modèle d’apprentissage profond entraîné sur la plateforme de benchmark General Language Understanding Evaluation (GLUE) afin de servir d’indicateur de qualité pour les dialogues dans un domaine ouvert. L’objectif est d’utiliser les différentes tâches du benchmark GLUE comme des perspectives variées pour juger la qualité d’une conversation, réduisant ainsi la nécessité de données supplémentaires d’entraînement ou de réponses de référence servant de critère de qualité. En raison de cette caractéristique, la méthode permet d’inférer diverses métriques de qualité et de dériver un score global basé sur des composantes. Nous obtenons des coefficients de corrélation statistiquement significatifs allant jusqu’à 0,7.