Un réseau profond efficace pour l’estimation de l’orientation de la tête sans points clés

L’estimation de l’orientation de la tête humaine est un problème essentiel en analyse faciale ces dernières années, avec de nombreuses applications en vision par ordinateur telles que l’estimation du regard, la réalité virtuelle et les systèmes d’aide au conducteur. Étant donné l’importance de ce problème, il est nécessaire de concevoir un modèle léger capable de résoudre cette tâche afin de réduire le coût computationnel lors du déploiement dans des applications basées sur l’analyse faciale, comme les systèmes de surveillance par caméra à grande échelle ou les caméras intelligentes, tout en maintenant une précision élevée. Dans ce travail, nous proposons un modèle léger qui traite efficacement le problème d’estimation de l’orientation de la tête. Notre approche repose sur deux étapes principales : 1) nous entraînons initialement plusieurs modèles enseignants sur un jeu de données synthétiques — 300W-LPA — afin d’obtenir des étiquettes pseudo-étendues pour l’orientation de la tête ; 2) nous concevons une architecture basée sur le résiduel ResNet18, puis entraînons notre modèle proposé en utilisant l’ensemble de ces étiquettes pseudo-étendues via un processus de distillation de connaissances. Pour évaluer l’efficacité de notre modèle, nous utilisons deux jeux de données réels d’estimation d’orientation de la tête : AFLW-2000 et BIWI. Les résultats expérimentaux montrent que notre modèle améliore significativement la précision par rapport aux méthodes de pointe actuelles en estimation d’orientation de la tête. En outre, notre modèle atteint une vitesse en temps réel d’environ 300 FPS lors de l’inférence sur une Tesla V100.