PyramidBox : Un détecteur de visages à une seule passe assisté par le contexte

La détection de visages a été largement étudiée depuis de nombreuses années et l'un des défis restants est la détection de visages petits, flous et partiellement occultés dans un environnement non contrôlé. Cet article propose un nouveau détecteur de visages en une seule étape assisté par le contexte, nommé \emph{PyramidBox}, pour résoudre ce problème difficile de détection de visages. En observant l'importance du contexte, nous améliorons l'utilisation des informations contextuelles sous trois aspects principaux. Premièrement, nous concevons un nouvel ancrage contextuel pour superviser l'apprentissage des caractéristiques contextuelles de haut niveau par une méthode semi-supervisée, que nous appelons PyramidAnchors. Deuxièmement, nous proposons le Réseau Pyramidal de Caractéristiques de Bas Niveau (Low-level Feature Pyramid Network) pour combiner adéquatement les caractéristiques sémantiques contextuelles de haut niveau et les caractéristiques faciales de bas niveau, ce qui permet également à PyramidBox de prédire des visages à toutes les échelles en une seule étape. Troisièmement, nous introduisons une structure sensible au contexte pour augmenter la capacité du réseau de prédiction et améliorer la précision finale des résultats. De plus, nous utilisons la méthode d'échantillonnage d'ancre de données (Data-anchor-sampling) pour augmenter les échantillons d'entraînement à différentes échelles, ce qui augmente la diversité des données d'entraînement pour les visages plus petits. En exploitant la valeur du contexte, PyramidBox atteint des performances supérieures parmi les méthodes les plus avancées sur deux benchmarks courants de détection de visages : FDDB et WIDER FACE. Notre code est disponible dans PaddlePaddle : \href{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}{\url{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}}.