Réseau Profond Piloté par les Sommets pour la Reconnaissance des Expressions Faciales

Les fonctions objectif utilisées pour l'entraînement des réseaux profonds dans les tâches de reconnaissance faciale, telles que la reconnaissance des expressions faciales (FER), considèrent généralement chaque échantillon de manière indépendante. Dans cette étude, nous présentons un nouveau réseau profond piloté par le pic d'expression (PPDN) qui utilise un échantillon avec une expression maximale (échantillon facile) pour superviser les réponses des caractéristiques intermédiaires d'un échantillon d'expression non maximale (échantillon difficile) du même type et du même sujet. Le processus d'évolution de l'expression du visage, de l'expression non maximale à l'expression maximale, peut ainsi être implicitement intégré au réseau afin d'atteindre une invariance aux intensités des expressions. Une procédure spéciale de rétropropagation, appelée suppression du gradient de pic (PGS), est proposée pour l'entraînement du réseau. Elle pousse les réponses des caractéristiques des couches intermédiaires des échantillons d'expressions non maximales vers celles des échantillons correspondants d'expressions maximales, tout en évitant le contraire. Cela permet d'éviter la dégradation de la capacité de reconnaissance pour les échantillons d'expressions maximales due à l'interférence de leurs homologues d'expressions non maximales. Des comparaisons approfondies sur deux ensembles de données FER populaires, Oulu-CASIA et CK+, démontrent la supériorité du PPDN par rapport aux méthodes FER les plus avancées actuellement disponibles, ainsi que les avantages tant de la structure du réseau que de la stratégie d'optimisation. De plus, il est montré que le PPDN est une architecture générale, extensible à d'autres tâches grâce à une définition appropriée des échantillons de pic et non de pic. Cette généralité est validée par des expériences qui montrent des performances au niveau de l'état de l'art en reconnaissance faciale invariante à la pose, en utilisant le jeu de données Multi-PIE.