HyperAIHyperAI
il y a 11 jours

Une évaluation fine-tunée de Wav2vec 2.0/HuBERT pour la reconnaissance d'émotions vocales, la vérification de locuteur et la compréhension des langues parlées

Yingzhi Wang, Abdelmoumene Boumadane, Abdelwahab Heba
Une évaluation fine-tunée de Wav2vec 2.0/HuBERT pour la reconnaissance d'émotions vocales, la vérification de locuteur et la compréhension des langues parlées
Résumé

Les modèles auto-supervisés pour la parole, tels que wav2vec 2.0 et HuBERT, connaissent des progrès révolutionnaires dans la reconnaissance automatique de la parole (ASR). Toutefois, leur capacité à améliorer les performances sur des tâches autres que l'ASR n’a pas encore été entièrement démontrée. Dans ce travail, nous avons exploré le fine-tuning partiel et complet appliqués aux modèles pré-entraînés wav2vec 2.0 et HuBERT pour trois tâches non liées à l’ASR : la reconnaissance d’émotions par la parole, la vérification de locuteur et la compréhension du langage parlé. Grâce à des cadres descendus simples proposés, les meilleurs résultats atteints sont respectivement 79,58 % de précision pondérée dans un cadre dépendant du locuteur et 73,01 % dans un cadre indépendant du locuteur pour la reconnaissance d’émotions sur IEMOCAP, un taux d’erreur égal de 2,36 % pour la vérification de locuteur sur VoxCeleb1, ainsi que 89,38 % de précision pour la classification d’intention et 78,92 % de F1 pour le remplissage de champs sur SLURP, mettant ainsi en évidence la capacité de wav2vec 2.0 et HuBERT fine-tunés à apprendre des représentations prosodiques, des empreintes vocales et des représentations sémantiques.

Une évaluation fine-tunée de Wav2vec 2.0/HuBERT pour la reconnaissance d'émotions vocales, la vérification de locuteur et la compréhension des langues parlées | Articles de recherche récents | HyperAI