Récupération d'objets particuliers avec max-pooling intégral des activations de CNN

Récemment, les représentations d'images basées sur les Réseaux Neuronaux Convolutifs (CNN) ont montré leur capacité à fournir des descripteurs efficaces pour la recherche d'images, surpassant les caractéristiques pré-CNN utilisées comme représentations de vecteurs courts. Cependant, ces modèles ne sont pas compatibles avec les méthodes de réordonnancement sensible à la géométrie et sont encore surpassés, sur certains benchmarks particuliers de récupération d'objets, par les systèmes traditionnels de recherche d'images qui s'appuient sur un appariement précis des descripteurs, un réordonnancement géométrique ou une expansion de requête. Ce travail reconsidère les deux étapes de la recherche, à savoir la recherche initiale et le réordonnancement, en utilisant les mêmes informations primitives issues du CNN. Nous construisons des vecteurs de caractéristiques compacts qui codent plusieurs régions d'image sans nécessiter l'alimentation de multiples entrées au réseau. De plus, nous étendons les images intégrales pour gérer le max-pooling sur les activations des couches convolutives, ce qui nous permet de localiser efficacement les objets correspondants. La boîte englobante résultante est finalement utilisée pour le réordonnancement des images. En conséquence, cet article améliore considérablement l'existant dans le domaine des pipelines de reconnaissance basés sur CNN : Nous rapportons pour la première fois des résultats compétitifs avec les méthodes traditionnelles sur les jeux de données difficiles Oxford5k et Paris6k.