LFFD : Un détecteur de visages léger et rapide pour les appareils embarqués

La détection de visages, en tant que technologie fondamentale pour diverses applications, est toujours déployée sur des dispositifs périphériques qui disposent d'une mémoire limitée et d'une faible puissance de calcul. Cet article présente un détecteur de visages léger et rapide (Light and Fast Face Detector, LFFD) destiné aux dispositifs périphériques. La méthode proposée ne fait pas usage d'ancres (anchor-free) et appartient à la catégorie des détecteurs en une seule étape (one-stage). Plus précisément, nous réexaminons l'importance du champ récepteur (receptive field, RF) et du champ récepteur effectif (effective receptive field, ERF) dans le contexte de la détection de visages. En substance, les RF des neurones d'une couche donnée sont distribués de manière régulière dans l'image d'entrée et ces RF constituent des « ancres » naturelles. En combinant ces « ancres » RF avec des pas de RF appropriés, la méthode proposée peut théoriquement détecter une large gamme d'échelles faciales continues avec une couverture totale. Une compréhension profonde des relations entre l'ERF et les échelles faciales a motivé l'élaboration d'un backbone efficace pour la détection en une seule étape. Ce backbone se distingue par huit branches de détection et des couches communes, ce qui permet un calcul efficace. Des expérimentations complètes et approfondies ont été menées sur des benchmarks populaires : WIDER FACE et FDDB. Un nouveau schéma d'évaluation est proposé pour les scénarios orientés vers les applications. Selon ce nouveau schéma, la méthode proposée peut atteindre une précision supérieure (WIDER FACE Val/Test -- Facile : 0,910/0,896 ; Moyen : 0,881/0,865 ; Difficile : 0,780/0,770 ; FDDB -- discontinu : 0,973 ; continu : 0,724). Plusieurs plateformes matérielles sont introduites pour évaluer l'efficacité de l'exécution. La méthode proposée peut obtenir une vitesse d'inférence rapide (NVIDIA TITAN Xp : 131,45 FPS à 640x480 ; NVIDIA TX2 : 136,99 FPS à 160x120 ; Raspberry Pi 3 Model B+ : 8,44 FPS à 160x120) avec une taille de modèle de 9 Mo.