Estimation multi-tâche de l'orientation de la tête dans des environnements non contrôlés

Nous présentons une approche multi-tâches basée sur le deep learning pour l’estimation de la posture de la tête dans les images. Nous proposons une architecture de réseau et une stratégie d’entraînement qui exploitent les fortes dépendances entre la posture du visage, l’alignement et la visibilité, afin de produire un modèle performant sur les trois tâches. Notre architecture repose sur un réseau de convolution à encodage-décodage (encoder-decoder CNN) comprenant des blocs résiduels et des connexions latérales de saut (lateral skip connections). Nous démontrons que la combinaison de l’estimation de la posture de la tête et de l’alignement basé sur les points de repère améliore significativement les performances de la première tâche. En outre, le positionnement de la tâche de posture au niveau du goulot d’étranglement (bottleneck), à la fin de l’encodeur, ainsi que celui des tâches dépendant d’informations spatiales — telles que la visibilité et l’alignement — dans la dernière couche du décodeur, contribue également à améliorer les performances finales. Les expérimentations montrent que le modèle proposé dépasse l’état de l’art pour les tâches d’estimation de posture du visage et de détection de visibilité. En ajoutant une étape finale de régression des points de repère, il produit également des résultats d’alignement du visage comparables à l’état de l’art.