EmotiCon : Reconnaissance multimodale des émotions en tenant compte du contexte à l'aide du principe de Frege

Nous présentons EmotiCon, un algorithme basé sur l'apprentissage pour la reconnaissance des émotions humaines perçues dans les vidéos et les images, en tenant compte du contexte. Inspirés par le Principe de Contexte de Frege issu de la psychologie, notre approche combine trois interprétations du contexte pour la reconnaissance des émotions. La première interprétation repose sur l'utilisation de plusieurs modalités (par exemple, visages et déplacements) pour reconnaître les émotions. Pour la deuxième interprétation, nous collectons le contexte sémantique à partir de l'image d'entrée et utilisons un CNN basé sur l'auto-attention pour encoder ces informations. Enfin, nous utilisons des cartes de profondeur pour modéliser la troisième interprétation liée aux interactions socio-dynamiques et à la proximité entre les agents.Nous démontrons l'efficacité de notre réseau grâce à des expériences menées sur EMOTIC, un jeu de données de référence. Nous rapportons un score de Précision Moyenne (Average Precision - AP) de 35,48 sur 26 classes, ce qui représente une amélioration de 7 à 8 points par rapport aux méthodes précédentes. Nous introduisons également un nouveau jeu de données, GroupWalk, qui est une collection de vidéos capturées dans diverses situations réelles où des personnes marchent. Nous rapportons un AP de 65,83 sur 4 catégories dans GroupWalk, ce qui constitue également une amélioration par rapport aux méthodes antérieures.