FaceNet2ExpNet : Régularisation d'un réseau de reconnaissance faciale profond pour la reconnaissance des expressions

Les ensembles de données relativement petits disponibles pour la recherche sur la reconnaissance des expressions rendent l'entraînement de réseaux profonds pour cette tâche très difficile. Bien que le réglage fin (fine-tuning) puisse partiellement atténuer ce problème, les performances restent en dessous des niveaux acceptables, car les caractéristiques profondes contiennent probablement des informations redondantes issues du domaine pré-entraîné. Dans cet article, nous présentons FaceNet2ExpNet, une nouvelle approche pour entraîner un réseau de reconnaissance des expressions basé sur des images statiques. Nous proposons d'abord une nouvelle fonction de distribution pour modéliser les neurones de haut niveau du réseau d'expressions. Sur cette base, un algorithme d'entraînement en deux étapes est soigneusement conçu. Dans la phase pré-entraînement, nous entraînons les couches convolutives du réseau d'expressions, régularisées par le réseau facial (face net). Dans la phase de raffinement, nous ajoutons des couches entièrement connectées aux couches convolutives pré-entraînées et entraînons l'ensemble du réseau conjointement. Les visualisations montrent que le modèle entraîné avec notre méthode capture des sémantiques d'expression de haut niveau améliorées. Les évaluations sur quatre bases de données publiques d'expressions, CK+, Oulu-CASIA, TFD et SFEW, démontrent que notre méthode obtient de meilleurs résultats que l'état de l'art.