Strip Pooling : Repenser le pooling spatial pour la segmentation d’images

Le pooling spatial s’est avéré extrêmement efficace pour capturer des informations contextuelles à longue portée dans les tâches de prédiction par pixel, telles que l’analyse de scènes. Dans cet article, au-delà du pooling spatial classique, généralement basé sur une forme régulière NxN, nous repensons la formulation du pooling spatial en introduisant une nouvelle stratégie, appelée strip pooling, qui utilise un noyau long mais étroit, c’est-à-dire de taille 1xN ou Nx1. À partir de cette approche, nous explorons plus en profondeur la conception d’architectures de pooling spatial en proposant : 1) un nouveau module de strip pooling permettant aux réseaux de base (backbone) de modéliser efficacement les dépendances à longue portée ; 2) un nouvel élément fondamental intégrant diverses formes de pooling spatial comme composante centrale ; et 3) une comparaison systématique des performances entre le strip pooling proposé et les méthodes classiques de pooling spatial. Les deux architectures proposées, fondées sur le pooling, sont légères et peuvent être facilement intégrées comme modules plug-and-play dans les réseaux existants pour l’analyse de scènes. Des expériences étendues sur des benchmarks populaires (par exemple, ADE20K et Cityscapes) montrent que notre approche simple atteint de nouveaux records d’état-de-l’art. Le code source est disponible à l’adresse suivante : https://github.com/Andrew-Qibin/SPNet.