HyperAIHyperAI

Command Palette

Search for a command to run...

Normalisation des locuteurs pour la reconnaissance émotionnelle automatique de la parole basée sur l'apprentissage non supervisé

Itai Gat Hagai Aronowitz Weizhong Zhu Edmilson Morais Ron Hoory

Résumé

Les grands jeux de données pour la reconnaissance des émotions par la parole sont difficiles à obtenir, et les petits jeux de données peuvent contenir des biais. Les classificateurs basés sur les réseaux profonds, à l’inverse, sont sujets à exploiter ces biais et à trouver des raccourcis, tels que les caractéristiques du locuteur. Ces raccourcis nuisent généralement à la capacité d’un modèle à généraliser. Pour relever ce défi, nous proposons un cadre d’apprentissage adversaire basé sur les gradients, qui apprend une tâche de reconnaissance des émotions par la parole tout en normalisant les caractéristiques du locuteur à partir de la représentation des caractéristiques. Nous démontrons l’efficacité de notre méthode dans des configurations indépendantes et dépendantes du locuteur, et obtenons de nouveaux résultats d’état de l’art sur le jeu de données exigeant IEMOCAP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp