HyperAIHyperAI

Command Palette

Search for a command to run...

Prototyp als Abfrage für Few-Shot-Semantische Segmentierung

Leilei Cao Yibo Guo Ye Yuan Qiangguo Jin

Zusammenfassung

Few-shot Semantic Segmentation (FSS) wurde vorgeschlagen, um bisher unbekannte Klassen in einer Abfragebild zu segmentieren, wobei lediglich wenige annotierte Beispiele – sogenannte Support-Bilder – zur Verfügung stehen. Ein zentrales Merkmal von FSS ist die räumliche Inkonsistenz zwischen Abfrage- und Support-Zielen, beispielsweise hinsichtlich Textur oder Erscheinungsbild. Dies stellt eine erhebliche Herausforderung für die Generalisierungsfähigkeit bestehender Methoden dar, da diese effektiv die Abhängigkeiten zwischen dem Abfragebild und den Support-Beispielen ausnutzen müssen. Die meisten aktuellen Ansätze fassen die Support-Features in Prototyp-Vektoren zusammen und realisieren die Interaktion mit den Abfrage-Features mittels Kosinus-Ähnlichkeit oder Feature-Konkatenation. Diese einfache Interaktion kann jedoch räumliche Details in den Abfrage-Features nicht ausreichend erfassen. Um diesen Limitationen entgegenzuwirken, nutzen einige Methoden sämtliche pixelweise Support-Informationen, indem sie die pixelweisen Korrelationen zwischen Paaren von Abfrage- und Support-Features mittels Aufmerksamkeitsmechanismus des Transformers berechnen. Diese Ansätze leiden jedoch unter hohem Rechenaufwand, insbesondere aufgrund der Dot-Product-Aufmerksamkeit zwischen allen Pixeln der Support- und Abfrage-Features. In diesem Artikel stellen wir einen einfachen, aber wirksamen Rahmenwerk basierend auf dem Transformer vor, das ProtoFormer genannt wird, um räumliche Details in den Abfrage-Features vollständig zu erfassen. Dabei werden die abstrahierten Prototypen der Zielklasse in den Support-Features als Query und die Abfrage-Features als Key- und Value-Embeddings betrachtet, die als Eingabe für den Transformer-Decoder dienen. Auf diese Weise können räumliche Details besser erfasst und die semantischen Merkmale der Zielklasse im Abfragebild stärker fokussiert werden. Das Ausgabesignal des Transformer-basierten Moduls kann als semantikbewusste dynamische Kerne interpretiert werden, die zur Filterung der Segmentierungsmaske aus den angereicherten Abfrage-Features dienen. Umfangreiche Experimente auf PASCAL-5i5^{i}5i und COCO-20i20^{i}20i zeigen, dass unser ProtoFormer die bisherigen State-of-the-Art-Methoden erheblich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp