HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance d'expressions composées à plusieurs étiquettes : base de données C-EXPR et réseau

Dimitrios Kollias

Résumé

La recherche en analyse automatique des expressions faciales se concentre principalement sur la reconnaissance des sept émotions fondamentales. Toutefois, les expressions composées sont plus diverses et reflètent avec une précision plus grande la complexité et la subtilité des manifestations affectives quotidiennes. Des recherches limitées ont été menées sur la reconnaissance des expressions composées (CER), en raison du petit nombre de bases de données disponibles, qui sont généralement petites, contrôlées en laboratoire, déséquilibrées et statiques. Dans cet article, nous présentons une base de données audiovisuelle réelle (in-the-wild), C-EXPR-DB, comprenant 400 vidéos pour un total de 200 000 images, annotées selon 13 expressions composées, des descripteurs d’émotion en termes de valence-arousal, des unités d’action (AU), du discours, des points de repère faciaux et des attributs. Nous proposons également C-EXPR-NET, une méthode d’apprentissage multi-tâches (MTL) pour la CER et la détection d’unités d’action (AU-D) ; cette dernière tâche est introduite afin d’améliorer les performances de la CER. Pour la détection d’AU, nous intégrons des descriptions sémantiques des unités d’action en plus des informations visuelles. Pour la CER, nous utilisons une formulation multi-étiquettes ainsi qu’une perte basée sur la divergence de Kullback-Leibler (KL-divergence). Nous proposons également une perte de correspondance de distribution pour coupler les tâches de CER et d’AU-D, afin d’améliorer leurs performances respectives et de réduire le transfert négatif (c’est-à-dire le cas où la performance du modèle MTL est inférieure à celle d’au moins un modèle mono-tâche). Une étude expérimentale approfondie a été menée, illustrant les excellentes performances de C-EXPR-NET et validant les hypothèses théoriques. Enfin, nous montrons que C-EXPR-NET parvient à généraliser efficacement ses connaissances dans de nouveaux contextes de reconnaissance émotionnelle, de manière zéro-shot.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp