HyperAIHyperAI
il y a 18 jours

Apprentissage de caractéristiques globales multi-échelles profondes et d’attention locale pour la reconnaissance d’expressions faciales dans des conditions naturelles

{Shanmin Wang, Qingshan Liu, Zengqun Zhao}
Résumé

La reconnaissance des expressions faciales (FER) dans des conditions naturelles (in the wild) suscite un intérêt croissant, où les occlusions et les variations d’orientation du visage constituent deux problèmes clés. Ce papier propose un réseau à multi-échelle globale et à attention locale (MA-Net) pour la FER dans des conditions naturelles. Plus précisément, le réseau proposé se compose de trois composants principaux : un extracteur de caractéristiques préalables, un module à multi-échelle et un module d’attention locale. L’extracteur de caractéristiques préalables permet d’extraire préalablement des caractéristiques de niveau intermédiaire ; le module à multi-échelle fusionne des caractéristiques issues de champs réceptifs variés, réduisant ainsi la sensibilité des couches convolutionnelles profondes aux occlusions et aux variations d’orientation du visage ; quant au module d’attention locale, il guide le réseau à se concentrer sur les caractéristiques locales saillantes, atténuant ainsi les perturbations causées par les occlusions et les poses non frontales dans le cadre de la FER in the wild. Des expérimentations étendues montrent que le MA-Net proposé atteint des résultats de pointe sur plusieurs benchmarks de FER dans des conditions naturelles : CAER-S, AffectNet-7, AffectNet-8, RAFDB et SFEW, avec des taux de précision respectifs de 88,42 %, 64,53 %, 60,29 %, 88,40 % et 59,40 %.