Nez, yeux et oreilles : Estimation de la pose de la tête par localisation des points clés du visage

L'estimation de la pose de tête monoculaire nécessite d'apprendre un modèle capable de calculer les angles intrinsèques d'Euler (biais, tangage, lacet) à partir d'une image d'entrée représentant un visage humain. L'annotation des angles réels de la pose de tête pour des images en conditions réelles est difficile et nécessite des procédures d'ajustement ad hoc (qui fournissent uniquement des annotations grossières et approximatives). Cela souligne la nécessité d'approches capables de s'entraîner sur des données capturées dans un environnement contrôlé et de généraliser aux images en conditions réelles (avec des variations d'apparence et d'éclairage du visage). La plupart des approches actuelles basées sur l'apprentissage profond, qui apprennent une fonction de régression directement sur les images d'entrée, échouent à ce faire. Dans cette optique, nous proposons d'utiliser une représentation de niveau supérieur pour régresser la pose de tête tout en utilisant des architectures d'apprentissage profond. Plus précisément, nous utilisons des cartes d'incertitude sous forme d'images thermiques 2D de localisation souple sur cinq points clés du visage, à savoir l'oreille gauche, l'oreille droite, l'œil gauche, l'œil droit et le nez, puis nous les faisons passer à travers un réseau neuronal convolutif pour régresser la pose de tête. Nous présentons les résultats de l'estimation de la pose de tête sur deux benchmarks difficiles, BIWI et AFLW, et notre approche dépasse l'état de l'art sur ces deux jeux de données.