Réseau de Transformers Supervisé pour une Détection Faciale Efficace

Les grandes variations de pose restent un défi majeur pour la détection faciale dans le monde réel. Nous proposons un nouveau réseau neuronal convolutif en cascade, nommé Supervised Transformer Network, pour relever ce défi. La première étape est un Réseau de Proposition de Régions (Region Proposal Network, RPN) multitâche, qui prédit simultanément des régions candidates de visages ainsi que les points d'intérêt faciaux associés. Les régions candidates sont ensuite transformées en mappant les points d'intérêt faciaux détectés à leurs positions canoniques afin de normaliser davantage les motifs faciaux. La deuxième étape, qui est un RCNN, vérifie ensuite si les régions candidates transformées sont des visages valides ou non. Nous effectuons une apprentissage en bout-à-bout du réseau en cascade, y compris l'optimisation des positions canoniques des points d'intérêt faciaux. Cet apprentissage supervisé des transformations sélectionne automatiquement l'échelle optimale pour distinguer les motifs visage/non-visage. En combinant les cartes de caractéristiques issues des deux étapes du réseau, nous obtenons des performances de détection d'avant-garde sur plusieurs benchmarks publics. Pour une performance en temps réel, nous exécutons le réseau en cascade uniquement sur les régions d'intérêt produites par un détecteur de visages en cascade basé sur le boosting. Notre détecteur fonctionne à 30 images par seconde (FPS) sur un seul cœur CPU pour une image au format VGA.