Contraste sémantique régional et agrégation pour la segmentation sémantique supervisée faiblement

L’apprentissage de la segmentation sémantique à partir de données faiblement étiquetées (par exemple, uniquement avec des balises d’image) est un défi majeur, car il est difficile d’inférer des régions d’objets denses à partir de balises sémantiques éparses. Bien que ce problème ait été largement étudié, la plupart des approches actuelles apprennent directement à partir d’annotations sémantiques limitées, portées par une seule image ou une paire d’images, et peinent à obtenir des cartes de localisation intégrales. Notre travail aborde ce problème sous un angle novateur, en explorant de manière synergique les contextes sémantiques riches présents dans une grande quantité de données d’entraînement faiblement étiquetées, afin d’améliorer l’apprentissage et l’inférence du réseau. Plus précisément, nous proposons une méthode appelée Contraste et Agrégation Sémantique Régionale (RCA). RCA intègre une banque de mémoire régionale capable de stocker un grand nombre de motifs d’objets diversifiés présents dans les données d’entraînement, offrant ainsi un soutien fort pour l’exploration de la structure sémantique au niveau du jeu de données. En particulier, nous introduisons i) un contraste sémantique, qui stimule l’apprentissage du réseau en comparant de vastes régions d’objets catégorisés, favorisant ainsi une compréhension plus holistique des motifs d’objets, et ii) une agrégation sémantique, qui rassemble des contextes relationnels variés présents dans la mémoire afin d’enrichir les représentations sémantiques. Grâce à cette approche, RCA acquiert une capacité notable en compréhension sémantique fine, et parvient finalement à établir de nouveaux états de l’art sur deux benchmarks populaires : PASCAL VOC 2012 et COCO 2014.