HyperAIHyperAI
il y a 2 mois

Réseaux d'attention pour la reconnaissance des expressions faciales dans les vidéos

Debin Meng; Xiaojiang Peng; Kai Wang; Yu Qiao
Réseaux d'attention pour la reconnaissance des expressions faciales dans les vidéos
Résumé

La reconnaissance des expressions faciales basée sur la vidéo vise à classer une vidéo donnée en plusieurs émotions de base. L'intégration des caractéristiques faciales de chaque image est cruciale pour cette tâche. Dans cet article, nous proposons les Réseaux d'Attention par Image (Frame Attention Networks, FAN), qui permettent de mettre automatiquement en évidence certaines images discriminantes dans un cadre end-to-end. Le réseau prend en entrée une vidéo composée d'un nombre variable d'images de visage et produit une représentation de dimension fixe. Le réseau complet est composé de deux modules. Le module d'embedding des caractéristiques est un réseau neuronal convolutif profond (Convolutional Neural Network, CNN) qui transforme les images de visage en vecteurs de caractéristiques. Le module d'attention par image apprend plusieurs poids d'attention qui sont utilisés pour agréger adaptivement les vecteurs de caractéristiques afin de former une seule représentation vidéo discriminante. Nous menons des expériences approfondies sur les jeux de données CK+ et AFEW8.0. Notre méthode proposée FAN montre des performances supérieures par rapport aux autres méthodes basées sur les CNN et atteint des résultats d'état de l'art sur le jeu de données CK+.