emotion2vec : Pré-entraînement auto-supervisé pour la représentation émotionnelle de la parole

Nous proposons emotion2vec, un modèle universel de représentation émotionnelle vocale. emotion2vec est pré-entraîné sur des données émotionnelles non étiquetées provenant de sources open-source grâce à une distillation en ligne auto-supervisée, en combinant une perte au niveau de l’énoncé et une perte au niveau des trames durant l’étape de pré-entraînement. emotion2vec surpasser les modèles pré-entraînés universels de pointe ainsi que les modèles spécialisés en reconnaissance des émotions, en ne nécessitant que l’entraînement de couches linéaires pour la tâche de reconnaissance émotionnelle vocale sur le jeu de données IEMOCAP, largement utilisé. En outre, emotion2vec montre des améliorations cohérentes sur 10 langues différentes dans des jeux de données de reconnaissance émotionnelle vocale. Le modèle obtient également de très bons résultats sur d’autres tâches émotionnelles, telles que la reconnaissance de l’émotion dans les chansons, la prédiction d’émotions dans les conversations et l’analyse d’opinion. Des expériences de comparaison, des expériences d’ablation ainsi que des visualisations démontrent de manière exhaustive la capacité universelle du modèle emotion2vec proposé. À notre connaissance, emotion2vec est le premier modèle de représentation universelle dans diverses tâches liées aux émotions, comblant ainsi un vide dans le domaine.