HyperAIHyperAI
il y a 2 mois

Apprentissage de représentations visuelles profondes pour la recherche d'images de bout en bout

Albert Gordo; Jon Almazan; Jerome Revaud; Diane Larlus
Apprentissage de représentations visuelles profondes pour la recherche d'images de bout en bout
Résumé

Bien que l'apprentissage profond soit devenu un ingrédient essentiel des méthodes les plus performantes pour de nombreuses tâches en vision par ordinateur, il n'a jusqu'à présent pas apporté d'améliorations similaires à la recherche d'images au niveau des instances. Dans cet article, nous soutenons que les raisons des résultats décevants des méthodes profondes en recherche d'images sont triples : i) données d'entraînement bruyantes, ii) architecture profonde inappropriée, et iii) procédure d'entraînement sous-optimale. Nous abordons ces trois problèmes.Premièrement, nous exploitons un jeu de données massif mais bruyant de monuments et développons une méthode de nettoyage automatique qui produit un ensemble de données d'entraînement adapté à la recherche profonde. Deuxièmement, nous nous appuyons sur le récent descripteur R-MAC, montrons qu'il peut être interprété comme une architecture profonde et différentiable, et présentons des améliorations pour le renforcer. Enfin, nous entraînons ce réseau avec une architecture siamoise qui combine trois flux avec une perte triplet. À la fin du processus d'entraînement, l'architecture proposée génère une représentation globale d'image en un seul passage avant qui est bien adaptée à la recherche d'images. Des expériences approfondies montrent que notre approche surpasse significativement les précédentes méthodes de recherche, y compris les méthodes de pointe basées sur l'indexation coûteuse de descripteurs locaux et la vérification spatiale. Sur Oxford 5k, Paris 6k et Holidays, nous rapportons respectivement des précisions moyennes de 94,7 %, 96,6 % et 94,8 %. Nos représentations peuvent également être fortement compressées en utilisant la quantification par produit avec peu de perte en précision. Pour plus de matériel supplémentaire, veuillez consulter www.xrce.xerox.com/Deep-Image-Retrieval.