Estimation de l'incertitude par calibration de réponse pour la mitigation du bruit de pseudo-mask dans la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée (WSSS) permet de segmenter des objets sans le fardeau lourd d'une annotation dense. Toutefois, à ce prix, les masques pseudo-étiquetés générés présentent des pixels bruités évidents, entraînant des modèles de segmentation sous-optimaux entraînés sur ces masques pseudo-étiquetés. Pourtant, peu d'études se sont attardées sur ce problème, bien que ces pixels bruités soient inévitables même après les améliorations apportées aux masques pseudo-étiquetés. Nous proposons donc d'améliorer la WSSS en se concentrant sur la réduction du bruit. Nous observons que de nombreux pixels bruités sont de haute confiance, notamment lorsque la portée de réponse est trop étroite ou trop large, ce qui reflète un état d'incertitude. Ainsi, dans cet article, nous simulons les variations bruitées de la réponse en appliquant plusieurs fois une mise à l'échelle de la carte de prédiction afin d'estimer l'incertitude. Cette incertitude est ensuite utilisée pour pondérer la fonction de perte de segmentation, afin de atténuer les signaux de supervision bruités. Nous appelons cette méthode URN, abréviation de Uncertainty estimation via Response scaling for Noise mitigation. Des expériences valident les bénéfices de URN, et notre approche atteint des résultats de pointe à 71,2 % et 41,5 % sur PASCAL VOC 2012 et MS COCO 2014 respectivement, sans recourir à des modèles supplémentaires tels que la détection de saillance. Le code est disponible à l'adresse suivante : https://github.com/XMed-Lab/URN.