Reduzierung der Informationsbottleneck für schwach überwachte semantische Segmentierung

Schwach beschriftete semantische Segmentierung erzeugt pixelgenaue Lokalisierung anhand von Klassenlabels; dabei neigt ein Klassifikator, der auf solchen Labels trainiert wurde, dazu, sich auf einen kleinen, diskriminativen Bereich des Zielobjekts zu konzentrieren. Wir deuten dieses Phänomen unter Verwendung des Informationsbottleneck-Prinzips: Die letzte Schicht eines tiefen neuronalen Netzes, aktiviert durch die Sigmoid- oder Softmax-Aktivierungsfunktionen, verursacht einen Informationsbottleneck, wodurch lediglich ein Teil der aufgabebezogenen Information an die Ausgabe weitergeleitet wird. Wir stützen diese These zunächst durch ein simuliertes Experiment mit einem einfachen Modell und schlagen dann eine Methode vor, um den Informationsbottleneck zu verringern, indem die letzte Aktivierungsfunktion entfernt wird. Darüber hinaus führen wir eine neue Pooling-Methode ein, die die Übertragung von Information aus nicht-diskriminativen Regionen zur Klassifikation weiter fördert. Unsere experimentellen Bewertungen zeigen, dass diese einfache Modifikation die Qualität der Lokalisationskarten sowohl auf den Datensätzen PASCAL VOC 2012 als auch MS COCO 2014 erheblich verbessert und eine neue state-of-the-art-Leistung für die schwach beschriftete semantische Segmentierung erzielt. Der Quellcode ist verfügbar unter: https://github.com/jbeomlee93/RIB.