Poolage de Covariance pour la Reconnaissance des Expressions Faciales

La classification des expressions faciales en différentes catégories nécessite la capture des distorsions régionales des points caractéristiques du visage. Nous pensons que les statistiques d'ordre deux, telles que la covariance, sont mieux capables de capturer ces distorsions dans les caractéristiques faciales régionales. Dans cette étude, nous explorons les avantages de l'utilisation d'une structure de réseau de variétés pour le regroupement par covariance afin d'améliorer la reconnaissance des expressions faciales. Plus précisément, nous utilisons pour la première fois ce type de réseaux de variétés conjointement avec des réseaux convolutifs traditionnels pour le regroupement spatial au sein des cartes de caractéristiques individuelles d'images, dans une approche d'apprentissage profond bout-en-bout. Grâce à cela, nous sommes en mesure d'atteindre une précision de reconnaissance de 58,14 % sur l'ensemble de validation de Static Facial Expressions in the Wild (SFEW 2.0) et de 87,0 % sur l'ensemble de validation de Real-World Affective Faces (RAF) Database. Ces deux résultats sont les meilleurs dont nous avons connaissance. De plus, nous exploitons le regroupement par covariance pour capturer l'évolution temporelle des caractéristiques par image dans la reconnaissance des expressions faciales basée sur la vidéo. Nos résultats rapportés démontrent l'avantage du regroupement temporel des caractéristiques d'un ensemble d'images en empilant le réseau de variétés conçu pour le regroupement par covariance au-dessus des couches de réseaux convolutifs.