Un modèle de raffinement progressif pour la détection d'objets saillants dans les images

Les réseaux de neurones convolutifs profonds (CNN) ont été efficacement appliqués à une large variété de problèmes en vision par ordinateur, notamment la détection d'objets saillants. Pour détecter et segmenter précisément les objets saillants, il est essentiel d'extraire et de combiner simultanément des caractéristiques sémantiques de haut niveau et des détails fins de bas niveau. Ce point constitue précisément un défi pour les CNN, car les opérations de sous-échantillonnage répétées, telles que le pooling ou la convolution, entraînent une diminution significative de la résolution initiale de l'image, entraînant ainsi une perte de détails spatiaux et de structures fines. Pour remédier à ce problème, nous proposons ici d’enrichir les réseaux feedforward en introduisant un nouveau module de pooling pyramidal ainsi qu’un mécanisme de raffinement multi-étapes spécifiquement conçu pour la détection de saillance. Tout d’abord, notre réseau feedforward profond génère une carte de prédiction grossière, dans laquelle de nombreuses structures détaillées ont été perdues. Ensuite, des réseaux de raffinement sont intégrés pour exploiter des informations contextuelles locales et améliorer progressivement les cartes de saillance précédemment produites par la branche principale, de manière itérative. Par ailleurs, un module de pooling pyramidal est appliqué afin d’agréger efficacement le contexte global basé sur différentes régions. Des évaluations empiriques menées sur cinq jeux de données standard montrent que la méthode proposée se distingue favorablement par rapport aux approches les plus récentes de l’état de l’art.