HyperAIHyperAI
vor 11 Tagen

SIGN: Spatial-Information Incorporated Generative Network for Generalized Zero-shot Semantic Segmentation

Jiaxin Cheng, Soumyaroop Nandi, Prem Natarajan, Wael Abd-Almageed
Abstract

Im Gegensatz zur herkömmlichen Zero-Shot-Klassifikation prognostiziert Zero-Shot-Semantische Segmentierung eine Klassenbezeichnung auf Pixel-Ebene anstelle der Bild-Ebene. Bei der Lösung von Zero-Shot-Semantischen Segmentierungsproblemen motiviert die Notwendigkeit einer pixelgenauen Vorhersage unter Berücksichtigung des räumlichen Kontexts die Einbeziehung räumlicher Informationen mittels Positions-Codierung. Wir verbessern die herkömmliche Positions-Codierung durch die Einführung des Konzepts der Relativen Positions-Codierung, welche räumliche Informationen auf der Merkmals-Ebene integriert und beliebige Bildgrößen verarbeiten kann. Zudem schlagen wir im Gegensatz zu gängigen Ansätzen, die Selbst-Training zur Generierung von Pseudolabels nutzen, eine neue, auf Wissens-Distillation basierende Selbst-Training-Strategie vor, die als „Annealed Self-Training“ bezeichnet wird und automatisch unterschiedliche Gewichte für Pseudolabels zuweist, um die Leistung zu verbessern. Wir untersuchen die vorgeschlagenen Methoden der Relativen Positions-Codierung und des Annealed Self-Training systematisch in einer umfassenden experimentellen Bewertung. Unsere empirischen Ergebnisse bestätigen die Wirksamkeit unseres Ansatzes an drei etablierten Benchmark-Datensätzen.

SIGN: Spatial-Information Incorporated Generative Network for Generalized Zero-shot Semantic Segmentation | Neueste Forschungsarbeiten | HyperAI