Segmentation sémantique faiblement supervisée utilisant des données hors distribution

Les méthodes de segmentation sémantique faiblement supervisée (WSSS) reposent souvent sur des cartes de localisation au niveau des pixels obtenues à partir d’un classificateur. Toutefois, en étant entraînées uniquement sur des étiquettes de classe, ces classificateurs souffrent d’une corrélation artificielle entre les indices du premier plan et ceux du fond (par exemple, train et voie ferrée), ce qui limite fondamentalement les performances de la WSSS. Des tentatives antérieures ont été menées pour atténuer ce problème en introduisant une supervision supplémentaire. Nous proposons une nouvelle source d’information pour distinguer le premier plan du fond : les données hors distribution (Out-of-Distribution, OoD), c’est-à-dire des images ne contenant aucune classe d’objet du premier plan. Plus précisément, nous exploitons les OoD difficiles, pour lesquels le classificateur est susceptible de produire des prédictions faussement positives. Ces échantillons portent généralement des caractéristiques visuelles clés du fond (par exemple, la voie ferrée), que le classificateur confond fréquemment avec le premier plan (par exemple, le train), ce qui permet au modèle de mieux supprimer ces indices erronés du fond. L’acquisition de ces OoD difficiles ne nécessite pas un effort d’annotation important ; elle suppose seulement un coût supplémentaire faible en étiquetage au niveau de l’image, au-delà des efforts initiaux pour collecter les étiquettes de classe. Nous proposons une méthode, appelée W-OoD, pour exploiter ces OoD difficiles. W-OoD atteint des performances de pointe sur le benchmark Pascal VOC 2012.