RetinaFace : Détection dense de visages en une seule étape dans des conditions réelles

Bien que des progrès considérables aient été réalisés dans la détection de visages non contrôlés, une localisation précise et efficace des visages en conditions réelles reste un défi ouvert. Cet article présente un détecteur de visages robuste à une seule étape, nommé RetinaFace, qui effectue une localisation faciale pixel par pixel sur différentes échelles de visages en tirant parti d'un apprentissage multitâche supervisé et auto-supervisé conjoint. Plus précisément, nous apportons des contributions dans les cinq aspects suivants : (1) Nous avons manuellement annoté cinq points clés du visage sur le jeu de données WIDER FACE et observé une amélioration significative de la détection de visages difficiles grâce à cette signalisation supplémentaire supervisée. (2) Nous avons ajouté une branche décodeur maillé auto-supervisée pour prédire des informations sur la forme 3D du visage au niveau pixel en parallèle avec les branches supervisées existantes. (3) Sur l'ensemble de tests difficile WIDER FACE, RetinaFace dépasse l'état de l'art en termes de précision moyenne (AP) avec une amélioration de 1,1 % (atteignant une AP égale à 91,4 %). (4) Sur l'ensemble de tests IJB-C, RetinaFace permet aux méthodes d'état de l'art (ArcFace) d'améliorer leurs résultats en vérification faciale (TAR = 89,59 % pour FAR = 1e-6). (5) En utilisant des réseaux neuronaux légers comme base arrière, RetinaFace peut fonctionner en temps réel sur un seul cœur CPU pour une image en résolution VGA. Les annotations supplémentaires et le code sont disponibles à l'adresse suivante : https://github.com/deepinsight/insightface/tree/master/RetinaFace.