
Bien que des progrès considérables aient été réalisés en matière de reconnaissance d'objets, l'un des défis restants est la détection d'objets de petite taille. Nous explorons trois aspects du problème dans le contexte de la détection de petits visages : le rôle de l'invariance d'échelle, de la résolution des images et du raisonnement contextuel. Bien que la plupart des approches de reconnaissance visent à être invariantes à l'échelle, les indices pour reconnaître un visage de 3 pixels de hauteur sont fondamentalement différents de ceux pour reconnaître un visage de 300 pixels de hauteur. Nous adoptons une approche différente et entraînons des détecteurs distincts pour différentes échelles. Pour maintenir l'efficacité, les détecteurs sont entraînés selon une méthode multitâche : ils utilisent les caractéristiques extraites de plusieurs couches d'une seule hiérarchie de caractéristiques (profonde). Si l'entraînement des détecteurs pour les objets grands est simple, le défi crucial reste l'entraînement des détecteurs pour les objets petits. Nous montrons que le contexte est essentiel et définissons des modèles qui utilisent des champs récepteurs massivement larges (où 99 % du modèle s'étend au-delà de l'objet d'intérêt). Enfin, nous examinons le rôle de l'échelle dans les réseaux neuronaux profonds pré-entraînés, en proposant des méthodes pour extrapoler ces réseaux ajustés pour des échelles limitées vers des plages plutôt extrêmes. Nous présentons des résultats d'état de l'art sur des jeux de données faciaux massivement évalués (FDDB et WIDER FACE). En particulier, comparativement aux travaux antérieurs sur WIDER FACE, nos résultats réduisent l'erreur par un facteur de 2 (nos modèles atteignent un AP de 82 % tandis que les travaux antérieurs varient entre 29 % et 64 %).