HyperAIHyperAI

Command Palette

Search for a command to run...

Un autoencodeur masqué quantifié par vecteurs pour la reconnaissance d'émotions vocales

Samir Sadok Simon Leglaive Renaud Séguier

Résumé

Ces dernières années, le domaine de la reconnaissance émotionnelle dans la parole (SER) a connu des progrès remarquables, grâce aux avancées des techniques d'apprentissage profond. Toutefois, la disponibilité limitée de données étiquetées constitue encore un défi majeur. L'apprentissage auto-supervisé est récemment apparu comme une solution prometteuse pour relever ce défi. Dans cet article, nous proposons VQ-MAE-S, un modèle auto-supervisé conçu pour reconnaître les émotions à partir de signaux vocaux. Ce modèle repose sur un autoencodeur masqué (MAE) opérant dans l'espace latente discret d'un autoencodeur variationnel vectoriel quantifié (VQ-VAE). Les résultats expérimentaux montrent que le modèle VQ-MAE-S, pré-entraîné sur le jeu de données VoxCeleb2 puis affiné sur des données vocales émotionnelles, surpasser le MAE fonctionnant directement sur la représentation spectrogramme brute ainsi que d'autres méthodes de pointe dans la tâche de SER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp