Segmentation d'instances faiblement supervisée utilisant la réponse au pic de classe

La segmentation d'instances faiblement supervisée avec des étiquettes au niveau de l'image, plutôt que des masques au niveau des pixels coûteux, reste un domaine peu exploré. Dans cet article, nous abordons ce problème complexe en exploitant les réponses de pic de classe pour permettre à un réseau de classification d'extraire des masques d'instances. Avec une supervision uniquement par les étiquettes d'images, les classifieurs CNN (Convolutional Neural Networks) dans un mode entièrement convolutif peuvent produire des cartes de réponses de classe, qui spécifient la confiance de classification à chaque emplacement de l'image. Nous avons observé que les maxima locaux, c'est-à-dire les pics, dans une carte de réponses de classe correspondent généralement à des indices visuels forts situés à l'intérieur de chaque instance.Motivés par cette observation, nous concevons d'abord un processus pour stimuler l'émergence de pics à partir d'une carte de réponses de classe. Les pics émergents sont ensuite rétropropagés et mappés efficacement vers des régions hautement informatives de chaque instance d'objet, telles que les contours d'instance. Nous désignons ces cartes générées à partir des réponses de pic de classe comme Cartes de Réponse de Pic (Peak Response Maps, PRMs). Les PRMs fournissent une représentation détaillée au niveau des instances, ce qui permet l'extraction des masques d'instances même avec certaines méthodes génériques. Selon nos connaissances actuelles, nous sommes les premiers à rapporter des résultats pour la tâche difficile de segmentation d'instances supervisée au niveau des images. Des expérimentations approfondies montrent que notre méthode améliore également la localisation ponctuelle faiblement supervisée ainsi que les performances de segmentation sémantique, et rapporte des résultats en pointe sur des benchmarks populaires, notamment PASCAL VOC 2012 et MS COCO.