Reconnaissance d'expressions composées à plusieurs étiquettes : base de données C-EXPR et réseau

La recherche en analyse automatique des expressions faciales se concentre principalement sur la reconnaissance des sept émotions fondamentales. Toutefois, les expressions composées sont plus diverses et reflètent avec une précision plus grande la complexité et la subtilité des manifestations affectives quotidiennes. Des recherches limitées ont été menées sur la reconnaissance des expressions composées (CER), en raison du petit nombre de bases de données disponibles, qui sont généralement petites, contrôlées en laboratoire, déséquilibrées et statiques. Dans cet article, nous présentons une base de données audiovisuelle réelle (in-the-wild), C-EXPR-DB, comprenant 400 vidéos pour un total de 200 000 images, annotées selon 13 expressions composées, des descripteurs d’émotion en termes de valence-arousal, des unités d’action (AU), du discours, des points de repère faciaux et des attributs. Nous proposons également C-EXPR-NET, une méthode d’apprentissage multi-tâches (MTL) pour la CER et la détection d’unités d’action (AU-D) ; cette dernière tâche est introduite afin d’améliorer les performances de la CER. Pour la détection d’AU, nous intégrons des descriptions sémantiques des unités d’action en plus des informations visuelles. Pour la CER, nous utilisons une formulation multi-étiquettes ainsi qu’une perte basée sur la divergence de Kullback-Leibler (KL-divergence). Nous proposons également une perte de correspondance de distribution pour coupler les tâches de CER et d’AU-D, afin d’améliorer leurs performances respectives et de réduire le transfert négatif (c’est-à-dire le cas où la performance du modèle MTL est inférieure à celle d’au moins un modèle mono-tâche). Une étude expérimentale approfondie a été menée, illustrant les excellentes performances de C-EXPR-NET et validant les hypothèses théoriques. Enfin, nous montrons que C-EXPR-NET parvient à généraliser efficacement ses connaissances dans de nouveaux contextes de reconnaissance émotionnelle, de manière zéro-shot.