Récupération d'Images Profondes : Apprentissage de Représentations Globales pour la Recherche d'Images

Nous proposons une nouvelle approche pour la recherche d'images au niveau des instances. Cette méthode génère une représentation globale et compacte de longueur fixe pour chaque image en agrégant de nombreux descripteurs régionaux. Contrairement aux travaux précédents qui utilisaient des réseaux profonds pré-entraînés comme une boîte noire pour produire des caractéristiques, notre méthode exploite une architecture profonde entraînée spécifiquement pour la tâche de recherche d'images. Notre contribution est double : (i) nous utilisons un cadre de classement pour apprendre les poids de convolution et de projection utilisés pour construire les caractéristiques régionales ; et (ii) nous employons un réseau de proposition de régions pour apprendre quelles régions doivent être regroupées afin de former le descripteur global final. Nous montrons que l'utilisation de données d'entraînement propres est essentielle au succès de notre approche. À cette fin, nous utilisons un ensemble de données à grande échelle mais bruyant sur les monuments et développons une approche automatique de nettoyage. L'architecture proposée produit une représentation globale d'image en une seule passe avant. Notre approche surpasse significativement les méthodes précédentes basées sur des descripteurs globaux sur des jeux de données standards. Elle dépasse même la plupart des travaux antérieurs basés sur l'indexation coûteuse des descripteurs locaux et la vérification spatiale. Des documents supplémentaires sont disponibles à l'adresse www.xrce.xerox.com/Deep-Image-Retrieval.