HyperAIHyperAI

Command Palette

Search for a command to run...

Une évaluation fine-tunée de Wav2vec 2.0/HuBERT pour la reconnaissance d'émotions vocales, la vérification de locuteur et la compréhension des langues parlées

Yingzhi Wang Abdelmoumene Boumadane Abdelwahab Heba

Résumé

Les modèles auto-supervisés pour la parole, tels que wav2vec 2.0 et HuBERT, connaissent des progrès révolutionnaires dans la reconnaissance automatique de la parole (ASR). Toutefois, leur capacité à améliorer les performances sur des tâches autres que l'ASR n’a pas encore été entièrement démontrée. Dans ce travail, nous avons exploré le fine-tuning partiel et complet appliqués aux modèles pré-entraînés wav2vec 2.0 et HuBERT pour trois tâches non liées à l’ASR : la reconnaissance d’émotions par la parole, la vérification de locuteur et la compréhension du langage parlé. Grâce à des cadres descendus simples proposés, les meilleurs résultats atteints sont respectivement 79,58 % de précision pondérée dans un cadre dépendant du locuteur et 73,01 % dans un cadre indépendant du locuteur pour la reconnaissance d’émotions sur IEMOCAP, un taux d’erreur égal de 2,36 % pour la vérification de locuteur sur VoxCeleb1, ainsi que 89,38 % de précision pour la classification d’intention et 78,92 % de F1 pour le remplissage de champs sur SLURP, mettant ainsi en évidence la capacité de wav2vec 2.0 et HuBERT fine-tunés à apprendre des représentations prosodiques, des empreintes vocales et des représentations sémantiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une évaluation fine-tunée de Wav2vec 2.0/HuBERT pour la reconnaissance d'émotions vocales, la vérification de locuteur et la compréhension des langues parlées | Articles | HyperAI