La précision compte : Ensemble sensible à la précision pour la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée (WSSS) utilise une supervision faible, telle que des étiquettes au niveau de l'image, pour entraîner le modèle de segmentation. Malgré les résultats impressionnants obtenus par les méthodes récentes en WSSS, nous avons identifié que l'introduction d'étiquettes faibles avec un Intersection sur Union (IoU) moyen élevé ne garantit pas nécessairement une bonne performance en segmentation. Les études existantes ont souligné l'importance de privilégier la précision et de réduire le bruit pour améliorer la performance globale. Dans cette lignée, nous proposons ORANDNet, une approche avancée d'ensemble spécifiquement conçue pour la WSSS. ORANDNet combine les cartes d'activation de classe (CAMs) provenant de deux classifieurs différents afin d'augmenter la précision des masques pseudo (PMs). Pour atténuer davantage les petits bruits présents dans les PMs, nous intégrons l'apprentissage par programme progressif. Cela implique d'entraîner initialement le modèle de segmentation avec des paires d'images plus petites et leurs PMs correspondants, avant de passer progressivement aux paires d'images à leur taille originale. En combinant les CAMs originales du ResNet-50 et du ViT, nous améliorons considérablement la performance en segmentation par rapport au meilleur modèle individuel et au modèle d'ensemble naïf, respectivement. Nous étendons notre méthode d'ensemble aux CAMs issues des modèles AMN (ResNet-like) et MCTformer (ViT-like), ce qui permet d'obtenir des avantages en termes de performance dans les modèles avancés de WSSS. Cette approche met en lumière le potentiel de notre ORANDNet comme module final additionnel pour les modèles de WSSS.