Du statique au dynamique : Adapter les modèles d’image conscients des repères pour la reconnaissance des expressions faciales dans les vidéos

La reconnaissance dynamique des expressions faciales (DFER) dans des conditions réelles reste freinée par des limitations de données, telles qu’un volume insuffisant et une diversité limitée en termes de posture, d’occlusion et d’éclairage, ainsi que par l’ambiguïté intrinsèque des expressions faciales. En revanche, la reconnaissance statique des expressions faciales (SFER) atteint actuellement des performances bien supérieures et peut bénéficier de données d’entraînement plus abondantes et de meilleure qualité. Par ailleurs, les caractéristiques d’apparence et les dépendances dynamiques propres à la DFER restent largement inexplorées. Pour relever ces défis, nous introduisons un nouveau modèle statique-vers-dynamique (S2D), qui exploite les connaissances existantes en SFER ainsi que les informations dynamiques implicitement encodées dans des caractéristiques de points de repère faciaux extraits. Ce modèle améliore significativement les performances de la DFER. Tout d’abord, nous construisons et entraînons un modèle d’image pour la SFER, basé uniquement sur un Vision Transformer (ViT) standard et des Prompteurs Complémentaires Multi-Vues (MCPs). Ensuite, nous obtenons notre modèle vidéo (c’est-à-dire S2D) pour la DFER en insérant des adaptateurs de modélisation temporelle (TMAs) dans le modèle d’image. Les MCPs renforcent les caractéristiques d’expression faciale en intégrant des informations de points de repère faciaux, extraites par un détecteur de points de repère facial disponible en libre-service. Les TMAs, quant à eux, captent et modélisent les relations évoluant dans le temps au sein des expressions faciales, étendant efficacement le modèle pré-entraîné sur images aux vidéos. Notons que les MCPs et les TMAs n’ajoutent qu’une fraction très faible de paramètres ajustables (moins de +10 %) au modèle d’image initial. En outre, nous proposons une nouvelle fonction de perte par auto-distillation basée sur des « Emotion-Anchors » (c’est-à-dire des échantillons de référence pour chaque catégorie émotionnelle), permettant de réduire l’impact négatif des étiquettes émotionnelles ambigües, et renforçant ainsi davantage notre modèle S2D. Des expériences menées sur des jeux de données populaires pour la SFER et la DFER montrent que notre approche atteint l’état de l’art.