Command Palette
Search for a command to run...
GETAM: Gradient-weighted Element-wise Transformer Attention Map für weakly-supervised Semantic Segmentation
GETAM: Gradient-weighted Element-wise Transformer Attention Map für weakly-supervised Semantic Segmentation
Weixuan Sun Jing Zhang Zheyuan Liu Yiran Zhong Nick Barnes
Zusammenfassung
Schwach beschriftete semantische Segmentierung (Weakly Supervised Semantic Segmentation, WSSS) stellt eine große Herausforderung dar, insbesondere wenn lediglich bildweite Etiketten zur Supervision der pixelweisen Vorhersage eingesetzt werden. Um diese Lücke zu schließen, wird üblicherweise eine Class Activation Map (CAM) generiert, um pixelweise Pseudolabels bereitzustellen. CAMs in Convolutional Neural Networks leiden jedoch unter partieller Aktivierung, d. h., nur die diskriminativsten Regionen werden aktiviert. Im Gegensatz dazu sind transformerbasierte Ansätze äußerst effektiv im Erfassen globaler Kontextinformationen durch Modellierung langreichweitiger Abhängigkeiten und könnten somit das Problem der „partiellen Aktivierung“ potenziell verringern. In diesem Paper stellen wir erstmals eine transformerbasierte WSSS-Methode vor und führen die Gradient-weighted Element-wise Transformer Attention Map (GETAM) ein. GETAM zeigt feinmaschige Aktivierung für alle Elemente der Feature-Maps und offenbart unterschiedliche Objektteile über verschiedene Transformer-Schichten hinweg. Darüber hinaus schlagen wir ein aktivitätsbewusstes Label-Vervollständigungsmodul vor, um hochwertige Pseudolabels zu generieren. Schließlich integrieren wir unsere Methoden in einen end-to-end-Framework für WSSS unter Verwendung einer doppelten Rückpropagation. Umfassende Experimente auf PASCAL VOC und COCO zeigen, dass unsere Ergebnisse die der aktuellen State-of-the-Art end-to-end-Verfahren signifikant übertrumpfen und die meisten mehrstufigen Methoden übertreffen.