BBAM : Carte d'Attribution de la Boîte Englobante pour la Segmentation Sémantique et par Instance Faiblement Supervisée

Les méthodes de segmentation faiblement supervisée utilisant des annotations par boîtes englobantes se concentrent sur l'obtention d'un masque au niveau des pixels à partir de chaque boîte contenant un objet. Les méthodes existantes dépendent généralement d'un générateur de masques non spécifique aux classes, qui opère sur les informations de bas niveau inhérentes à une image. Dans ce travail, nous utilisons des informations de haut niveau issues du comportement d'un détecteur d'objets entraîné, en cherchant les plus petites zones de l'image à partir desquelles le détecteur d'objets produit presque le même résultat qu'il le ferait à partir de l'image entière. Ces zones constituent une carte d'attribution de boîte englobante (BBAM), qui identifie l'objet cible dans sa boîte englobante et sert donc de pseudo-vérité terrain pour la segmentation sémantique et la segmentation d'instances faiblement supervisées. Cette approche surpasse significativement les techniques comparables récentes sur les benchmarks PASCAL VOC et MS COCO en matière de segmentation sémantique et d'instances faiblement supervisées. De plus, nous fournissons une analyse détaillée de notre méthode, offrant une compréhension plus profonde du comportement de la BBAM.