Apprentissage local avec des caractéristiques profondes et élaborées pour la reconnaissance d'expressions faciales

Nous présentons une approche qui combine les caractéristiques automatiques apprises par des réseaux de neurones convolutifs (CNN) et les caractéristiques élaborées manuellement calculées par le modèle de sac de mots visuels (BOVW) afin d'obtenir des résultats de pointe dans la reconnaissance des expressions faciales. Pour obtenir les caractéristiques automatiques, nous expérimentons avec plusieurs architectures de CNN, modèles pré-entraînés et procédures d'entraînement, par exemple Dense-Sparse-Dense. Après avoir fusionné les deux types de caractéristiques, nous utilisons un cadre d'apprentissage local pour prédire l'étiquette de classe pour chaque image de test. Le cadre d'apprentissage local repose sur trois étapes. Premièrement, un modèle k-plus proches voisins est appliqué pour sélectionner les échantillons d'entraînement les plus proches pour une image de test donnée. Deuxièmement, un classificateur Support Vector Machine (SVM) à une contre toutes est entraîné sur les échantillons d'entraînement sélectionnés. Enfin, le classificateur SVM est utilisé pour prédire l'étiquette de classe uniquement pour l'image de test sur laquelle il a été entraîné. Bien que nous ayons utilisé l'apprentissage local en combinaison avec des caractéristiques élaborées manuellement dans nos travaux précédents, à notre connaissance, l'apprentissage local n'a jamais été employé en combinaison avec des caractéristiques profondes. Les expériences menées sur l'ensemble de données du défi Facial Expression Recognition (FER) 2013, l'ensemble de données FER+ et l'ensemble de données AffectNet montrent que notre approche atteint des résultats de pointe. Avec une précision maximale de 75,42 % sur FER 2013, 87,76 % sur FER+, 59,58 % sur la classification en 8 classes d'AffectNet et 63,31 % sur la classification en 7 classes d'AffectNet, nous surpassons les méthodes actuelles de pointe d'au moins 1 % sur tous les ensembles de données.