Segmentation faiblement supervisée universelle par apprentissage contrastif pixel-à-segment

La segmentation supervisée faiblement requiert d’attribuer une étiquette à chaque pixel à partir d’instances d’apprentissage munies d’annotations partielles, telles que des balises au niveau de l’image, des boîtes englobantes d’objets, des points étiquetés ou des griffonnages. Ce problème est particulièrement difficile, car les annotations grossières (balises, boîtes) manquent de localisation précise au niveau des pixels, tandis que les annotations éparses (points, griffonnages) offrent une couverture insuffisante des régions. Les méthodes existantes traitent ces deux types de supervision faible de manière distincte : les cartes d’activation de classe sont utilisées pour localiser les étiquettes grossières et affiner itérativement le modèle de segmentation, tandis que les champs aléatoires conditionnels sont employés pour propager les étiquettes éparses à l’ensemble de l’image.Nous formulons la segmentation supervisée faiblement comme un problème d’apprentissage métrique semi-supervisé, dans lequel les pixels de même sémantique doivent être associés à des caractéristiques identiques, tandis que ceux de sémantiques différentes doivent être représentés par des caractéristiques distinctes. Nous proposons quatre types de relations contrastives entre pixels et segments dans l’espace des caractéristiques, capturant respectivement la similarité de bas niveau dans l’image, l’annotation sémantique, la co-occurrence et l’affinité des caractéristiques. Ces relations agissent comme des priori ; les caractéristiques au niveau des pixels peuvent être apprises de manière data-driven à partir d’images d’entraînement munies d’annotations partielles quelconques. En particulier, les pixels non étiquetés dans les images d’entraînement participent non seulement au regroupement data-driven à l’intérieur de chaque image, mais aussi à l’apprentissage discriminatif des caractéristiques à l’intérieur et entre les images. Nous proposons ainsi un segmenteur faiblement supervisé universel, offrant des gains significatifs sur les jeux de données Pascal VOC et DensePose. Notre code est disponible publiquement à l’adresse suivante : https://github.com/twke18/SPML.