HyperAIHyperAI
il y a 11 jours

Un autoencodeur masqué quantifié par vecteurs pour la reconnaissance d'émotions vocales

Samir Sadok, Simon Leglaive, Renaud Séguier
Un autoencodeur masqué quantifié par vecteurs pour la reconnaissance d'émotions vocales
Résumé

Ces dernières années, le domaine de la reconnaissance émotionnelle dans la parole (SER) a connu des progrès remarquables, grâce aux avancées des techniques d'apprentissage profond. Toutefois, la disponibilité limitée de données étiquetées constitue encore un défi majeur. L'apprentissage auto-supervisé est récemment apparu comme une solution prometteuse pour relever ce défi. Dans cet article, nous proposons VQ-MAE-S, un modèle auto-supervisé conçu pour reconnaître les émotions à partir de signaux vocaux. Ce modèle repose sur un autoencodeur masqué (MAE) opérant dans l'espace latente discret d'un autoencodeur variationnel vectoriel quantifié (VQ-VAE). Les résultats expérimentaux montrent que le modèle VQ-MAE-S, pré-entraîné sur le jeu de données VoxCeleb2 puis affiné sur des données vocales émotionnelles, surpasser le MAE fonctionnant directement sur la représentation spectrogramme brute ainsi que d'autres méthodes de pointe dans la tâche de SER.

Un autoencodeur masqué quantifié par vecteurs pour la reconnaissance d'émotions vocales | Articles de recherche récents | HyperAI