Agrégation de caractéristiques convolutives profondes pour la recherche d'images

Plusieurs travaux récents ont montré que les descripteurs d'images produits par les réseaux de neurones convolutifs profonds offrent des performances de pointe pour les problèmes de classification et de recherche d'images. Il a également été démontré que les activations issues des couches convolutives peuvent être interprétées comme des caractéristiques locales décrivant des régions particulières d'une image. Ces caractéristiques locales peuvent être agrégées en utilisant des approches d'agrégation développées pour les caractéristiques locales (par exemple, les vecteurs de Fisher), fournissant ainsi de nouveaux descripteurs globaux puissants.Dans cet article, nous examinons différentes façons d'agréger les caractéristiques locales profondes afin de produire des descripteurs globaux compacts pour la recherche d'images. Tout d'abord, nous montrons que les caractéristiques profondes et les caractéristiques traditionnelles conçues manuellement présentent des distributions très différentes de similarités paires, ce qui nécessite une évaluation attentive des méthodes existantes d'agrégation. Cette réévaluation révèle que, contrairement aux caractéristiques superficielles, la méthode simple d'agrégation basée sur le sum pooling (somme pondérée) offre probablement la meilleure performance pour les caractéristiques convolutives profondes. Cette méthode est efficace, comporte peu de paramètres et présente un faible risque de surapprentissage lorsqu'on apprend par exemple la matrice PCA. Dans l'ensemble, le nouveau descripteur global compact améliore considérablement l'état de l'art sur quatre benchmarks courants.