HyperAIHyperAI
il y a 17 jours

USR : Une métrique d'évaluation non supervisée et sans référence pour la génération de dialogues

Shikib Mehri, Maxine Eskenazi
USR : Une métrique d'évaluation non supervisée et sans référence pour la génération de dialogues
Résumé

Le manque de métriques d'évaluation automatiques significatives pour les dialogues a freiné les recherches en matière de dialogue ouvert. Il a été démontré que les métriques standards de génération de langage sont inefficaces pour évaluer les modèles de dialogue. À cet effet, ce papier présente USR, une métrique d'évaluation non supervisée et sans référence pour les dialogues. USR est une métrique sans référence qui entraîne des modèles non supervisés afin de mesurer plusieurs qualités souhaitables dans les dialogues. USR montre une forte corrélation avec les jugements humains, tant sur Topical-Chat (au niveau de l'échange : 0,42, au niveau du système : 1,0) que sur PersonaChat (au niveau de l'échange : 0,48, au niveau du système : 1,0). En outre, USR fournit des mesures interprétables pour plusieurs propriétés souhaitables des dialogues.

USR : Une métrique d'évaluation non supervisée et sans référence pour la génération de dialogues | Articles de recherche récents | HyperAI