Segmentation sémantique faiblement supervisée avec apprentissage des mots visuels et pooling hybride

Les méthodes de segmentation sémantique faiblement supervisée (WSSS) basées sur des étiquettes au niveau d’image entraînent généralement un réseau de classification afin de générer des cartes d’activation de classe (CAMs), utilisées comme étiquettes initiales de segmentation grossière. Toutefois, les méthodes WSSS actuelles restent loin d’être satisfaisantes, principalement en raison de deux limitations des CAMs qu’elles utilisent : 1) elles se concentrent généralement sur des régions partielles discriminantes de l’objet, et 2) elles contiennent souvent des régions de fond inutiles. Ces deux problèmes proviennent de la seule supervision au niveau d’image et de l’agrégation d’informations globales lors de l’entraînement du réseau de classification. Dans ce travail, nous proposons un module d’apprentissage des mots visuels et une approche hybride de pooling, que nous intégrons dans le réseau de classification afin de réduire ces limitations. Dans le module d’apprentissage des mots visuels, nous attaquons le premier problème en forçant le réseau de classification à apprendre des étiquettes de mots visuels à fine-grain, permettant ainsi de découvrir une étendue plus complète de l’objet. Plus précisément, les mots visuels sont appris à l’aide d’un dictionnaire (codebook), qui peut être mis à jour grâce à deux stratégies proposées : une stratégie fondée sur l’apprentissage et une stratégie basée sur une mémoire (memory-bank). Le second inconvénient des CAMs est atténué grâce au pooling hybride proposé, qui combine à la fois l’information moyenne globale et l’information locale discriminante, garantissant ainsi à la fois l’intégralité de l’objet et la réduction des régions de fond. Nous avons évalué notre méthode sur les jeux de données PASCAL VOC 2012 et MS COCO 2014. Sans aucun prérequis de saliency supplémentaire, notre approche atteint respectivement 70,6 % et 70,7 % de mIoU sur les ensembles de validation et de test du jeu de données PASCAL VOC, ainsi que 36,2 % de mIoU sur l’ensemble de validation de MS COCO, dépassant significativement les performances des méthodes WSSS les plus avancées de l’état de l’art.