HyperAIHyperAI
il y a 18 jours

Agrégation de caractéristiques profondes locales pour la recherche d’images

{Artem Babenko, Victor Lempitsky}
Agrégation de caractéristiques profondes locales pour la recherche d’images
Résumé

Plusieurs travaux récents ont démontré que les descripteurs d’images générés par des réseaux de neurones convolutifs profonds offrent des performances de pointe pour les problèmes de classification et de recherche d’images. Il a également été montré que les activations des couches convolutives peuvent être interprétées comme des caractéristiques locales décrivant des régions particulières de l’image. Ces caractéristiques locales peuvent être agrégées à l’aide de méthodes d’agrégation conçues pour les caractéristiques locales (par exemple, les vecteurs de Fisher), permettant ainsi d’obtenir de nouveaux descripteurs globaux puissants. Dans cet article, nous explorons différentes approches d’agrégation des caractéristiques locales profondes afin de produire des descripteurs compacts pour la recherche d’images. Tout d’abord, nous montrons que les caractéristiques profondes et les caractéristiques traditionnelles à conception manuelle présentent des distributions très différentes des similarités par paires, ce qui implique que les méthodes d’agrégation existantes doivent être soigneusement réévaluées. Cette réévaluation révèle qu’en contraste avec les caractéristiques peu profondes, la méthode d’agrégation simple basée sur le pooling par somme offre les meilleures performances pour les caractéristiques convolutives profondes. Cette méthode est efficace, nécessite peu de paramètres et présente un risque faible de surapprentissage, notamment lors de l’apprentissage de la matrice de PCA. En outre, nous proposons un schéma simple mais efficace d’expansion de requête adapté à la méthode d’agrégation proposée. Globalement, le nouveau descripteur global compact améliore de manière significative l’état de l’art sur quatre benchmarks courants.