Command Palette
Search for a command to run...
EmoCLIP : Une méthode vision-langage pour la reconnaissance d'expressions faciales vidéo en zero-shot
EmoCLIP : Une méthode vision-langage pour la reconnaissance d'expressions faciales vidéo en zero-shot
Niki Maria Foteinopoulou Ioannis Patras
Résumé
La reconnaissance des expressions faciales (FER) est une tâche cruciale en informatique affective, mais son attention traditionnelle portée aux sept émotions de base limite sa pertinence pour le spectre émotionnel complexe et en expansion. Pour remédier au problème des nouvelles émotions et des émotions non vues présentes dans la FER dynamique en conditions réelles, nous proposons un nouveau modèle vision-langue qui utilise des descriptions textuelles au niveau des échantillons (c'est-à-dire les légendes du contexte, des expressions ou des indices émotionnels) comme supervision linguistique naturelle, visant à améliorer l'apprentissage de représentations latentes riches pour la classification zéro-shot. Pour tester cela, nous évaluons la classification zéro-shot du modèle formé avec des descriptions au niveau des échantillons sur quatre jeux de données populaires de FER dynamique. Nos résultats montrent que cette approche apporte d'importantes améliorations par rapport aux méthodes de référence. Plus précisément, pour la classification zéro-shot vidéo FER, nous surpassons CLIP de plus de 10 % en termes de rappel moyen pondéré et de 5 % en termes de rappel moyen non pondéré sur plusieurs jeux de données. De plus, nous évaluons les représentations obtenues à partir du réseau formé avec des descriptions au niveau des échantillons sur la tâche descendante d'estimation des symptômes liés à la santé mentale, atteignant une performance comparable ou supérieure aux méthodes les plus avancées et un fort accord avec les experts humains. Notamment, nous obtenons un coefficient de corrélation de Pearson jusqu'à 0.85 pour l'estimation de la gravité des symptômes schizophréniques, ce qui est comparable à l'accord entre experts humains. Le code est disponible publiquement à l'adresse suivante : https://github.com/NickyFot/EmoCLIP.