Co-entraînement supervisé faiblement avec permutation d'affectations pour la segmentation sémantique

Les cartes d’activation de classe (CAMs) sont couramment utilisées dans le cadre du découpage sémantique faiblement supervisé (WSSS) afin de générer des pseudo-étiquettes. En raison d’activations de classe incomplètes ou excessives, les études existantes recourent souvent à une révision hors ligne des CAMs, ce qui introduit des étapes supplémentaires ou des modules spécifiques hors ligne. Cette approche peut entraîner des difficultés d’optimisation pour les méthodes à une seule étape et limiter leur généralisation. Dans cette étude, nous visons à réduire l’incohérence et les erreurs observées dans les CAMs afin de diminuer la dépendance vis-à-vis des processus de révision. Nous proposons un modèle WSSS end-to-end intégrant des CAMs guidées, dans lequel notre modèle de segmentation est entraîné tout en optimisant les CAMs en ligne. Notre méthode, Co-entraînement avec affectations échangées (CoSA), repose sur un cadre à deux flux, où un sous-réseau apprend à partir des affectations échangées générées par l’autre. Nous introduisons trois techniques : i) une régularisation basée sur la perplexité douce pour pénaliser les régions incertaines ; ii) une approche de recherche de seuil pour ajuster dynamiquement le seuil de confiance ; et iii) une séparation contrastive pour résoudre le problème de coexistence. CoSA obtient des performances exceptionnelles, atteignant un mIoU de 76,2 % et 51,0 % sur les jeux de données de validation VOC et COCO respectivement, dépassant largement les méthodes de référence existantes. Notamment, CoSA est la première approche à une seule étape à surpasser toutes les méthodes multi-étapes existantes, y compris celles bénéficiant d’une supervision additionnelle. Le code est disponible à l’adresse suivante : \url{https://github.com/youshyee/CoSA}.