HyperAIHyperAI

Command Palette

Search for a command to run...

MDD-Eval : Auto-entraînement sur des données augmentées pour l'évaluation de dialogues multi-domaines

Chen Zhang Luis Fernando D&#39 Haro Thomas Friedrichs Haizhou Li

Résumé

Les chatbots sont conçus pour mener des conversations ressemblant à celles des humains dans divers domaines, tels que les échanges informels, l’échange de connaissances ou les conversations ancrées dans un personnage. Pour évaluer la qualité de ces agents conversationnels, un évaluateur de dialogue doit être capable d’effectuer une évaluation à travers plusieurs domaines. Toutefois, la plupart des métriques d’évaluation automatique de dialogue (ADMs) les plus avancées actuellement ne sont pas conçues pour une évaluation multi-domaines. Inspirés par ce défi, nous proposons un cadre général et robuste, appelé MDD-Eval, pour répondre à cette problématique. Plus précisément, nous entraînons d’abord un évaluateur « professeur » à l’aide de données annotées par des humains afin qu’il acquière une compétence de notation permettant de distinguer les bonnes réponses de dialogue des mauvaises dans un domaine spécifique. Ensuite, nous appliquons une stratégie d’apprentissage auto-supervisé pour entraîner un nouvel évaluateur à partir de données multi-domaines annotées par le professeur, ce qui permet à ce dernier de généraliser efficacement à plusieurs domaines. Le cadre MDD-Eval est évalué de manière extensive sur six benchmarks d’évaluation de dialogue. Les résultats expérimentaux montrent que MDD-Eval atteint des performances solides, avec une amélioration absolue de 7 % par rapport aux ADMs les plus avancés en termes de corrélation de Spearman moyenne sur l’ensemble des benchmarks d’évaluation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp