Détection dynamique des unités d’action faciales multi-vues

Nous proposons une nouvelle approche de réseau neuronal convolutif pour résoudre le problème de reconnaissance fine-grained de la détection d'unités d'action faciales dynamiques à partir de vues multiples. Nous tirons parti des récents progrès en matière de reconnaissance d'objets à grande échelle en formulant la tâche de prédire la présence ou l'absence d'une unité d'action spécifique dans une image fixe d'un visage humain comme une classification holistique. Nous explorons ensuite l'espace de conception de notre approche en considérant à la fois des représentations partagées et indépendantes pour les unités d'action distinctes, ainsi que différentes architectures de CNN pour combiner les informations couleur et mouvement. Nous passons ensuite au nouveau cadre du Défi FERA 2017, où nous proposons une extension multi-vue de notre approche qui fonctionne en préddisant d'abord le point de vue à partir duquel la vidéo a été prise, puis en évaluant un ensemble de détecteurs d'unités d'action qui ont été formés pour ce point de vue spécifique. Notre approche est holistique, efficace et modulaire, car de nouvelles unités d'action peuvent être facilement intégrées dans le système global. Notre méthode surpasse significativement la ligne de base du Défi FERA 2017, avec une amélioration absolue de 14 % sur la métrique F1. De plus, elle se compare avantageusement au vainqueur du Défi FERA 2017. Le code source est disponible à l'adresse suivante : https://github.com/BCV-Uniandes/AUNets.