HyperFace : Un Cadre de Apprentissage Multitâche Profond pour la Détection des Visages, la Localisation des Points de Repère, l'Estimation de la Position et la Reconnaissance du Sexe

Nous présentons un algorithme permettant la détection simultanée de visages, la localisation de points d'intérêt, l'estimation de la pose et la reconnaissance du sexe à l'aide de réseaux neuronaux convolutifs profonds (CNN). La méthode proposée, appelée HyperFace, fusionne les couches intermédiaires d'un CNN profond à l'aide d'un CNN distinct, suivi d'un algorithme d'apprentissage multitâche qui opère sur les caractéristiques fusionnées. Elle exploite la synergie entre les tâches, ce qui améliore leurs performances individuelles. De plus, nous proposons deux variantes de HyperFace : (1) HyperFace-ResNet, qui s'appuie sur le modèle ResNet-101 et réalise des améliorations significatives en termes de performance, et (2) Fast-HyperFace, qui utilise un détecteur rapide de visages à haut rappel pour générer des propositions de régions afin d'accélérer l'algorithme. Des expériences approfondies montrent que les modèles proposés sont capables de capturer à la fois des informations globales et locales dans les visages et qu'ils performencent nettement mieux que de nombreux algorithmes concurrents pour chacune de ces quatre tâches.