Apprentissage des grimaces en regardant la télévision

Contrairement aux systèmes de vision par ordinateur qui nécessitent une supervision explicite, les humains peuvent apprendre les expressions faciales en observant les personnes dans leur environnement. Dans cet article, nous examinons comment des capacités similaires pourraient être développées dans la vision machine. Comme point de départ, nous considérons le problème de l'association des expressions faciales à des événements mesurables objectivement dans les vidéos. Plus particulièrement, nous étudions un jeu télévisé où les participants jouent pour gagner des sommes d'argent importantes. Nous extrayons automatiquement et objectivement les événements affectant le jeu et les expressions faciales correspondantes à partir des vidéos, obtenant ainsi de grandes quantités de données étiquetées pour notre étude. Nous développons également des réseaux neuronaux profonds d'avant-garde pour la reconnaissance des expressions faciales, en utilisant des benchmarks tels que FER et SFEW 2.0, montrant que le pré-entraînement sur des données de vérification faciale peut être très bénéfique pour cette tâche. Ensuite, nous étendons ces modèles afin d'utiliser les expressions faciales pour prédire les événements dans les vidéos et d'apprendre des expressions nommables à partir de ceux-ci. Le jeu de données et les modèles de reconnaissance émotionnelle sont disponibles à l'adresse http://www.robots.ox.ac.uk/~vgg/data/facevalue.