PAtt-Lite : MobileNet léger basé sur les patchs et l'attention pour la reconnaissance difficile d'expressions faciales

La reconnaissance des expressions faciales (FER) est un problème d’apprentissage automatique visant à identifier les expressions humaines à partir des visages. Bien que les travaux existants aient permis des progrès significatifs ces dernières années, la FER dans des conditions réelles (« in the wild ») et sous des contraintes difficiles reste un défi. Dans cet article, nous proposons un réseau léger basé sur MobileNetV1, intégrant des patchs et une mécanique d’attention, appelé PAtt-Lite, afin d’améliorer les performances de la FER dans des conditions difficiles. Un modèle MobileNetV1 pré-entraîné sur ImageNet, dont les couches supérieures ont été tronquées, est utilisé comme extracteur de caractéristiques principal. À la place des couches tronquées, nous introduisons un bloc d’extraction de patchs conçu pour extraire des caractéristiques locales significatives du visage, renforçant ainsi la représentation fournie par MobileNetV1, particulièrement dans des conditions défavorables. Par ailleurs, un classificateur à attention est proposé pour améliorer l’apprentissage des cartes de caractéristiques patchées issues de cet extracteur de caractéristiques extrêmement léger. Les résultats expérimentaux sur des bases de données publiques de référence démontrent l’efficacité de la méthode proposée. PAtt-Lite atteint des performances de pointe (state-of-the-art) sur les jeux de données CK+, RAF-DB, FER2013, FERPlus, ainsi que sur les sous-ensembles difficiles de RAF-DB et FERPlus.