HyperAIHyperAI
il y a 13 jours

WHenet : Estimation en temps réel et à granularité fine de l'orientation de la tête sur une large gamme

Yijun Zhou, James Gregson
WHenet : Estimation en temps réel et à granularité fine de l'orientation de la tête sur une large gamme
Résumé

Nous présentons un réseau de estimation de l'orientation de la tête (head-pose estimation) end-to-end conçu pour prédire les angles d'Euler sur l'ensemble de la plage d'orientations en yaw à partir d'une seule image RGB. Les méthodes existantes fonctionnent bien pour les vues frontales, mais peu d'entre elles traitent l'orientation de la tête à partir de toutes les directions. Cette approche présente des applications dans les véhicules autonomes et le commerce de détail. Notre réseau repose sur une stratégie multi-pertes, avec des modifications apportées aux fonctions de perte et aux stratégies d'entraînement adaptées à l'estimation sur une large plage. En outre, pour la première fois, nous extrayons des étiquetages de vérité terrain (ground truth) correspondant aux vues antérieures à partir d'un jeu de données panoptique actuel. Le réseau résultant, nommé Wide Headpose Estimation Network (WHENet), constitue la première méthode moderne à haute précision applicable à l'ensemble de la gamme d'orientations en yaw (d'où le terme « wide »), tout en atteignant ou dépassant les meilleures méthodes actuelles pour l'estimation de l'orientation de la tête en vue frontale. Ce réseau est compact et efficace, ce qui le rend particulièrement adapté aux dispositifs mobiles et aux applications embarquées.