Échantillonnage par importance des CAMs pour la segmentation supervisée faiblement

Les réseaux de classification peuvent être utilisés pour localiser et segmenter des objets dans les images à l’aide de cartes d’activation de classe (CAM). Toutefois, en l’absence d’annotations au niveau des pixels, les réseaux de classification sont connus pour (1) se concentrer principalement sur des régions discriminatives, et (2) produire des CAM floues, aux contours de prédiction mal définis. Dans ce travail, nous abordons ces deux problèmes grâce à deux contributions visant à améliorer l’apprentissage des CAM. Premièrement, nous intégrons un échantillonnage par importance basé sur la fonction de masse de probabilité par classe induite par les CAM afin de générer des prédictions stochastiques au niveau de l’image. Cela conduit à des CAM activées sur une étendue plus large des objets. Deuxièmement, nous formulons un terme de perte basé sur la similarité des caractéristiques, visant à aligner les contours de prédiction avec les contours présents dans l’image. Enfin, comme troisième contribution, nous menons des expériences sur le jeu de données de référence PASCAL VOC 2012, qui démontrent que ces modifications améliorent significativement la précision des contours, tout en restant comparables aux méthodes les plus avancées actuelles en termes de similarité régionale.