HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage non supervisé par contraste pour la reconnaissance d'émotions par la parole

Mao Li Bo Yang Joshua Levy Andreas Stolcke Viktor Rozgic Spyros Matsoukas Constantinos Papayiannis Daniel Bone Chao Wang

Résumé

La reconnaissance émotionnelle par la parole (SER) est une technologie clé permettant une communication homme-machine plus naturelle. Toutefois, la SER a longtemps souffert du manque de jeux de données publics à grande échelle étiquetés. Pour contourner ce problème, nous étudions la manière dont l’apprentissage non supervisé de représentations sur des jeux de données non étiquetés peut bénéficier à la SER. Nous démontrons que la méthode de codage prédictif contrastif (CPC) est capable d’apprendre des représentations pertinentes à partir de données non étiquetées, ce qui améliore les performances de reconnaissance émotionnelle. Dans nos expériences, cette méthode a atteint des performances de pointe en termes de coefficient de corrélation de concordance (CCC) pour chacune des primitives émotionnelles (activation, valence et dominance) sur le corpus IEMOCAP. En outre, sur le jeu de données MSP-Podcast, notre approche a permis des améliorations significatives par rapport aux méthodes de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp