HyperAIHyperAI
il y a 11 jours

Apprentissage non supervisé par contraste pour la reconnaissance d'émotions par la parole

Mao Li, Bo Yang, Joshua Levy, Andreas Stolcke, Viktor Rozgic, Spyros Matsoukas, Constantinos Papayiannis, Daniel Bone, Chao Wang
Apprentissage non supervisé par contraste pour la reconnaissance d'émotions par la parole
Résumé

La reconnaissance émotionnelle par la parole (SER) est une technologie clé permettant une communication homme-machine plus naturelle. Toutefois, la SER a longtemps souffert du manque de jeux de données publics à grande échelle étiquetés. Pour contourner ce problème, nous étudions la manière dont l’apprentissage non supervisé de représentations sur des jeux de données non étiquetés peut bénéficier à la SER. Nous démontrons que la méthode de codage prédictif contrastif (CPC) est capable d’apprendre des représentations pertinentes à partir de données non étiquetées, ce qui améliore les performances de reconnaissance émotionnelle. Dans nos expériences, cette méthode a atteint des performances de pointe en termes de coefficient de corrélation de concordance (CCC) pour chacune des primitives émotionnelles (activation, valence et dominance) sur le corpus IEMOCAP. En outre, sur le jeu de données MSP-Podcast, notre approche a permis des améliorations significatives par rapport aux méthodes de référence.

Apprentissage non supervisé par contraste pour la reconnaissance d'émotions par la parole | Articles de recherche récents | HyperAI