Masquage de Caractéristiques Convolutives pour la Segmentation Simultanée d'Objets et de Matières

Le sujet de la segmentation sémantique a connu des progrès considérables grâce aux caractéristiques puissantes apprises par les réseaux neuronaux convolutifs (CNNs). Les approches actuellement en tête dans le domaine de la segmentation sémantique exploitent les informations sur la forme en extrayant des caractéristiques CNN à partir de régions d'images masquées. Cette stratégie introduit des frontières artificielles sur les images et peut affecter la qualité des caractéristiques extraites. De plus, les opérations dans le domaine de l'image brute nécessitent le calcul de milliers de réseaux pour une seule image, ce qui est très coûteux en temps. Dans cet article, nous proposons d'exploiter les informations sur la forme en masquant les caractéristiques convolutives. Les propositions de segments (par exemple, super-pixels) sont traitées comme des masques sur les cartes de caractéristiques convolutives. Les caractéristiques CNN des segments sont directement masquées à partir de ces cartes et utilisées pour entraîner des classifieurs pour la reconnaissance. Nous proposons également une méthode conjointe pour traiter les objets et les éléments amorphes (par exemple, herbe, ciel, eau) dans le même cadre. Des résultats d'état de l'art sont démontrés sur les bancs d'essai PASCAL VOC et le nouveau PASCAL-CONTEXT, avec une vitesse computationnelle convaincante.