HyperAIHyperAI
il y a 17 jours

SLUE : Nouveaux tâches de benchmark pour l’évaluation de la compréhension du langage parlé sur des discours naturels

Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han
SLUE : Nouveaux tâches de benchmark pour l’évaluation de la compréhension du langage parlé sur des discours naturels
Résumé

Les progrès dans le traitement du langage parlé ont été facilités par l’existence de jeux de données et de benchmarks partagés. Historiquement, ces ressources se sont concentrées sur des tâches de bas niveau, telles que la reconnaissance automatique de la parole (ASR), l’identification des locuteurs ou d’autres tâches similaires. Toutefois, l’intérêt croît pour des tâches de compréhension du langage parlé de niveau supérieur, notamment l’utilisation de modèles end-to-end, mais des jeux de données annotés pour ces tâches restent rares. Parallèlement, des travaux récents montrent la faisabilité de pré-entraîner des représentations génériques, puis de les adapter (fine-tuning) à plusieurs tâches en utilisant une quantité relativement faible de données étiquetées. Nous proposons de créer une série de tâches de benchmark pour l’évaluation de la compréhension du langage parlé (Spoken Language Understanding Evaluation, SLUE), comprenant des ensembles d’apprentissage étiquetés de taille limitée ainsi que des ensembles d’évaluation correspondants. Cette ressource permettrait à la communauté scientifique de suivre les progrès, d’évaluer les représentations pré-entraînées sur des tâches de haut niveau, et d’étudier des questions ouvertes telles que l’efficacité comparative des approches en pipeline versus end-to-end. Nous présentons la première phase du benchmark SLUE, comprenant la reconnaissance d’entités nommées, l’analyse de sentiment et la reconnaissance automatique de la parole sur les jeux de données correspondants. Nous nous concentrons sur des échantillons de parole naturelle (non lue ni synthétisée) et sur des jeux de données librement disponibles. Nous fournissons de nouvelles transcriptions et annotations sur des sous-ensembles des jeux de données VoxCeleb et VoxPopuli, des métriques d’évaluation ainsi que les résultats des modèles de base, ainsi qu’un outil open source permettant de reproduire les modèles de base et d’évaluer de nouveaux modèles.

SLUE : Nouveaux tâches de benchmark pour l’évaluation de la compréhension du langage parlé sur des discours naturels | Articles de recherche récents | HyperAI