Classification hybride grossière-fine pour l’estimation de la pose de la tête

L'estimation de la posture de la tête, qui calcule les angles intrinsèques d'Euler (biais, tangage, lacet) à partir d'un individu humain, est cruciale pour l'estimation du regard, l'alignement facial et la reconstruction 3D. Les approches traditionnelles dépendent fortement de la précision des points clés du visage. Cela limite leurs performances, en particulier lorsque la visibilité du visage n'est pas optimale. Dans cet article, afin d'effectuer l'estimation sans utiliser les points clés du visage, nous combinons les sorties de régression grossière et fine dans un réseau profond. En utilisant plus d'unités de quantification pour les angles, un classifieur fin est entraîné avec l'aide d'autres unités auxiliaires grossières. L'intégration de la régression est adoptée pour obtenir la prédiction finale. La méthode proposée a été évaluée sur trois benchmarks difficiles. Elle atteint l'état de l'art sur AFLW2000 et BIWI et donne des résultats favorables sur AFLW. Le code a été publié sur Github.