Exploitation des caractéristiques sémantiques de la scène et des architectures convolutionnelles multi-flux dans une approche contextuelle pour la reconnaissance visuelle émotionnelle basée sur vidéo en conditions réelles

Dans cette étude, nous abordons la tâche de reconnaissance visuelle des émotions à partir de vidéos dans des conditions réelles. Les méthodologies standard qui se basent uniquement sur l'extraction de caractéristiques corporelles et faciales échouent souvent à prédire les émotions avec précision lorsque ces sources d'information affective sont inaccessibles en raison de l'orientation de la tête ou du corps, d'une faible résolution et d'une mauvaise illumination. Nous visons à atténuer ce problème en exploitant le contexte visuel sous forme de caractéristiques et attributs de scène, au sein d'un cadre plus large de reconnaissance des émotions. Les Réseaux de Segments Temporels (Temporal Segment Networks, TSN) constituent l'ossature de notre modèle proposé. Outre la modalité d'entrée RGB, nous utilisons un flux optique dense, suivant une approche multi-flux intuitive pour une encodage plus efficace du mouvement. De plus, nous portons notre attention sur l'apprentissage basé sur le squelette et exploitons des données centrées sur l'action comme moyen de pré-entraîner un Réseau Convolutif Spatio-Temporel (Spatial-Temporal Graph Convolutional Network, ST-GCN) pour la tâche de reconnaissance des émotions. Nos expériences exhaustives sur le corpus Body Language Dataset (BoLD), connu pour sa difficulté, confirment la supériorité de nos méthodes par rapport aux approches existantes. En intégrant correctement tous les modules mentionnés précédemment dans un ensemble de réseaux, nous parvenons à surpasser les scores de reconnaissance publiés précédemment avec une marge considérable.