HyperAIHyperAI
il y a 2 mois

Reconnaissance des émotions dans la parole à l'aide du transfert intermodal en conditions réelles

Samuel Albanie; Arsha Nagrani; Andrea Vedaldi; Andrew Zisserman
Reconnaissance des émotions dans la parole à l'aide du transfert intermodal en conditions réelles
Résumé

L'obtention de grands ensembles de données vocales étiquetés par des humains pour entraîner des modèles de reconnaissance émotionnelle est une tâche notoirement difficile, entravée par le coût d'annotation et l'ambiguïté des étiquettes. Dans ce travail, nous abordons la tâche d'apprentissage d'embeddings pour la classification vocale sans accès à aucune forme de données audio étiquetées. Notre approche repose sur une hypothèse simple : le contenu émotionnel de la parole est corrélé avec l'expression faciale du locuteur. En exploitant cette relation, nous montrons que les annotations d'expression peuvent être transférées du domaine visuel (visages) au domaine vocal (voix) grâce à la distillation intermodale. Nous apportons les contributions suivantes : (i) nous développons un réseau enseignant robuste pour la reconnaissance émotionnelle faciale qui atteint l'état de l'art sur un benchmark standard ; (ii) nous utilisons cet enseignant pour former un réseau élève, tabula rasa, afin qu'il apprenne des représentations (embeddings) pour la reconnaissance émotionnelle vocale sans accès à des données audio étiquetées ; et (iii) nous démontrons que l'embedding émotionnel vocal peut être utilisé pour la reconnaissance émotionnelle vocale sur des ensembles de données benchmark externes. Le code, les modèles et les données sont disponibles.