HyperAIHyperAI
il y a 17 jours

Expression, affect, reconnaissance des unités d’action : Aff-Wild2, apprentissage multi-tâches et ArcFace

Dimitrios Kollias, Stefanos Zafeiriou
Expression, affect, reconnaissance des unités d’action : Aff-Wild2, apprentissage multi-tâches et ArcFace
Résumé

L'informatique affective a été largement limitée en ce qui concerne les ressources disponibles de données. Avec l'émergence des modèles d'apprentissage profond, devenus la méthode par défaut pour traiter toute tâche de vision par ordinateur, il est devenu évident que la collecte et l'annotation de jeux de données diversifiés en situation réelle (in-the-wild) sont essentielles. Certains jeux de données in-the-wild ont récemment été proposés. Toutefois, ils présentent plusieurs limites : i) leur taille est réduite, ii) ils ne sont pas multimodaux (audiovisuels), iii) seule une petite partie est annotée manuellement, iv) ils incluent un nombre restreint de sujets, ou v) ils ne sont pas annotés pour toutes les tâches principales d'analyse du comportement (estimation continue de la valence et de l’excitation, détection des unités d’action, classification des expressions fondamentales). Pour remédier à ces lacunes, nous étendons de manière significative le plus grand jeu de données in-the-wild actuellement disponible (Aff-Wild) afin d’étudier les émotions continues telles que la valence et l’excitation. En outre, nous annotons certaines parties de ce jeu de données avec des expressions fondamentales et des unités d’action. Par conséquent, pour la première fois, cette extension permet une étude conjointe des trois types de states comportementaux. Nous appelons ce nouveau jeu de données Aff-Wild2. Nous menons des expérimentations approfondies utilisant des architectures CNN et CNN-RNN exploitant les modalités visuelles et audio, entraînées sur Aff-Wild2, puis évaluées sur 10 bases de données publiques d’émotions. Nos résultats montrent que ces réseaux atteignent des performances de pointe pour les tâches de reconnaissance d’émotions. En outre, nous adaptons la fonction de perte ArcFace dans le contexte de la reconnaissance émotionnelle, et l’utilisons pour entraîner deux nouveaux réseaux sur Aff-Wild2, avant de les réentraîner sur diverses bases de données d’identification d’expressions variées. Les résultats démontrent que ces réseaux surpassent l’état de l’art existant. Le jeu de données, les modèles de reconnaissance émotionnelle et le code source sont disponibles à l’adresse suivante : http://ibug.doc.ic.ac.uk/resources/aff-wild2.