HyperAIHyperAI
vor 16 Tagen

Prototyp als Abfrage für Few-Shot-Semantische Segmentierung

Leilei Cao, Yibo Guo, Ye Yuan, Qiangguo Jin
Prototyp als Abfrage für Few-Shot-Semantische Segmentierung
Abstract

Few-shot Semantic Segmentation (FSS) wurde vorgeschlagen, um bisher unbekannte Klassen in einer Abfragebild zu segmentieren, wobei lediglich wenige annotierte Beispiele – sogenannte Support-Bilder – zur Verfügung stehen. Ein zentrales Merkmal von FSS ist die räumliche Inkonsistenz zwischen Abfrage- und Support-Zielen, beispielsweise hinsichtlich Textur oder Erscheinungsbild. Dies stellt eine erhebliche Herausforderung für die Generalisierungsfähigkeit bestehender Methoden dar, da diese effektiv die Abhängigkeiten zwischen dem Abfragebild und den Support-Beispielen ausnutzen müssen. Die meisten aktuellen Ansätze fassen die Support-Features in Prototyp-Vektoren zusammen und realisieren die Interaktion mit den Abfrage-Features mittels Kosinus-Ähnlichkeit oder Feature-Konkatenation. Diese einfache Interaktion kann jedoch räumliche Details in den Abfrage-Features nicht ausreichend erfassen. Um diesen Limitationen entgegenzuwirken, nutzen einige Methoden sämtliche pixelweise Support-Informationen, indem sie die pixelweisen Korrelationen zwischen Paaren von Abfrage- und Support-Features mittels Aufmerksamkeitsmechanismus des Transformers berechnen. Diese Ansätze leiden jedoch unter hohem Rechenaufwand, insbesondere aufgrund der Dot-Product-Aufmerksamkeit zwischen allen Pixeln der Support- und Abfrage-Features. In diesem Artikel stellen wir einen einfachen, aber wirksamen Rahmenwerk basierend auf dem Transformer vor, das ProtoFormer genannt wird, um räumliche Details in den Abfrage-Features vollständig zu erfassen. Dabei werden die abstrahierten Prototypen der Zielklasse in den Support-Features als Query und die Abfrage-Features als Key- und Value-Embeddings betrachtet, die als Eingabe für den Transformer-Decoder dienen. Auf diese Weise können räumliche Details besser erfasst und die semantischen Merkmale der Zielklasse im Abfragebild stärker fokussiert werden. Das Ausgabesignal des Transformer-basierten Moduls kann als semantikbewusste dynamische Kerne interpretiert werden, die zur Filterung der Segmentierungsmaske aus den angereicherten Abfrage-Features dienen. Umfangreiche Experimente auf PASCAL-$5^{i}$ und COCO-$20^{i}$ zeigen, dass unser ProtoFormer die bisherigen State-of-the-Art-Methoden erheblich übertrifft.

Prototyp als Abfrage für Few-Shot-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI