HyperAIHyperAI
il y a 2 mois

spatial pyramid pooling dans les réseaux de neurones convolutifs profonds pour la reconnaissance visuelle

Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun
spatial pyramid pooling dans les réseaux de neurones convolutifs profonds pour la reconnaissance visuelle
Résumé

Les réseaux de neurones convolutifs profonds (CNN) existants nécessitent une image d'entrée de taille fixe (par exemple, 224x224). Cette exigence est « artificielle » et peut réduire la précision de reconnaissance pour les images ou sous-images de taille/échelle arbitraires. Dans ce travail, nous dotons les réseaux d'une autre stratégie de pooling, le « pooling pyramidal spatial », afin d'éliminer cette contrainte. La nouvelle structure de réseau, appelée SPP-net, peut générer une représentation de longueur fixe indépendamment de la taille/échelle de l'image. Le pooling pyramidal est également robuste aux déformations des objets. Grâce à ces avantages, SPP-net devrait en général améliorer toutes les méthodes de classification d'images basées sur les CNN. Sur l'ensemble de données ImageNet 2012, nous montrons que SPP-net augmente la précision d'une variété d'architectures CNN malgré leurs conceptions différentes. Sur les ensembles de données Pascal VOC 2007 et Caltech101, SPP-net obtient des résultats de classification à l'état de l'art en utilisant une seule représentation complète d'image et sans aucun fine-tuning.La puissance du SPP-net est également significative dans la détection d'objets. En utilisant SPP-net, nous calculons les cartes de caractéristiques à partir de l'image entière uniquement une fois, puis nous faisons le pooling des caractéristiques dans des régions (sous-images) arbitraires pour générer des représentations de longueur fixe pour entraîner les détecteurs. Cette méthode évite le calcul répété des caractéristiques convolutives. Lors du traitement des images de test, notre méthode est 24 à 102 fois plus rapide que la méthode R-CNN tout en obtenant une meilleure ou comparable précision sur Pascal VOC 2007.Dans le défi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014, nos méthodes se classent au deuxième rang pour la détection d'objets et au troisième rang pour la classification d'images parmi toutes les 38 équipes participantes. Ce manuscrit présente également les améliorations apportées pour cette compétition.