Réduction du goulot d'étranglement d'information pour la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée permet d’obtenir une localisation au niveau des pixels à partir d’étiquettes de classe ; toutefois, un classificateur entraîné sur de telles étiquettes a tendance à se concentrer sur une petite région discriminante de l’objet cible. Nous interprétons ce phénomène à l’aide du principe du goulot d’étranglement d’information : la dernière couche d’un réseau neuronal profond, activée par des fonctions d’activation sigmoïde ou softmax, crée un goulot d’étranglement d’information, ce qui entraîne le fait que seule une sous-partie des informations pertinentes pour la tâche est transmise à la sortie. Nous soutenons tout d’abord cette hypothèse à travers une expérience simplifiée en simulation, puis proposons une méthode visant à réduire ce goulot d’étranglement en supprimant la fonction d’activation finale. En outre, nous introduisons une nouvelle méthode de pooling qui encourage davantage la transmission d’informations provenant des régions non discriminantes vers la classification. Nos évaluations expérimentales montrent que cette modification simple améliore significativement la qualité des cartes de localisation sur les jeux de données PASCAL VOC 2012 et MS COCO 2014, atteignant ainsi une nouvelle performance de pointe pour la segmentation sémantique faiblement supervisée. Le code est disponible à l’adresse suivante : https://github.com/jbeomlee93/RIB.