Pyramiden-Graph-Netze mit Verbindungs-Attention für regionenbasierte One-Shot-Semantische Segmentierung

One-shot-Bildsegmentierung zielt darauf ab, die Segmentierungsaufgabe einer neuen Klasse mit lediglich einem verfügbaren Trainingsbild durchzuführen. Die Schwierigkeit ergibt sich daraus, dass die Bildsegmentierung strukturierte Datendarstellungen aufweist, was ein Viel-zu-Viel-Message-Passing-Problem verursacht. Frühere Ansätze vereinfachen dieses Problem häufig zu einem Ein-zu-Viel-Problem, indem sie die Support-Daten auf eine globale Beschreibung komprimieren. Eine gemischte globale Darstellung verliert jedoch die Struktur der Daten sowie die Informationen einzelner Elemente. In diesem Paper schlagen wir vor, strukturierte Segmentierungsdaten mittels Graphen zu modellieren und eine aufmerksamkeitsbasierte Graphen-Reasoning-Technik einzusetzen, um Label-Informationen von Support-Daten auf Query-Daten zu übertragen. Die Graphen-Aufmerksamkeitsmechanismen können durch Lernen von Aufmerksamkeitsgewichten zwischen verbundenen Graphenknoten Korrespondenzen zwischen einzelnen Elementen über strukturierte Daten hinweg herstellen. Um Korrespondenzen auf unterschiedlichen semantischen Ebenen zu erfassen, führen wir außerdem eine pyramidenartige Struktur ein, die unterschiedlich große Bildregionen als Graphenknoten modelliert und Graphen-Reasoning auf mehreren Ebenen durchführt. Experimente auf dem PASCAL VOC 2012-Datensatz zeigen, dass das vorgeschlagene Netzwerk die Baseline-Methode erheblich übertrifft und neue SOTA-Leistungen (state-of-the-art) bei 1-Shot- und 5-Shot-Segmentierungsbenchmark-Aufgaben erzielt.