MSDNet: Multi-Scale Decoder für Few-Shot-Semantische Segmentierung mittels Transformer-gesteuerter Prototypenbildung

Few-shot Semantic Segmentation adressiert die Herausforderung, Objekte in Query-Bildern zu segmentieren, wenn nur eine geringe Anzahl an annotierten Beispielen zur Verfügung steht. Viele bisherige state-of-the-art-Methoden müssen entweder komplexe lokale semantische Merkmale vernachlässigen oder leiden unter hoher rechnerischer Komplexität. Um diese Probleme anzugehen, stellen wir einen neuen Few-shot Semantic Segmentation-Framework basierend auf der Transformer-Architektur vor. Unser Ansatz führt einen spatialen Transformer-Decoder und ein kontextuelles Masken-Generierungsmodul ein, um das relationale Verständnis zwischen Support- und Query-Bildern zu verbessern. Zudem integrieren wir einen mehrschaligen Decoder, um die Segmentierungsmaske durch hierarchische Berücksichtigung von Merkmalen verschiedener Auflösungen zu verfeinern. Darüber hinaus werden globale Merkmale aus Zwischenstufen des Encoders integriert, um das kontextuelle Verständnis zu stärken, während gleichzeitig eine leichtgewichtige Struktur beibehalten wird, um die Komplexität zu reduzieren. Dieses Gleichgewicht zwischen Leistungsfähigkeit und Effizienz ermöglicht es unserem Ansatz, wettbewerbsfähige Ergebnisse auf Benchmark-Datensätzen wie PASCAL-5^i und COCO-20^i sowohl im 1-shot- als auch im 5-shot-Setting zu erzielen. Insbesondere zeigt unser Modell mit nur 1,5 Millionen Parametern eine wettbewerbsfähige Leistung und überwindet dabei die Grenzen bestehender Methoden. https://github.com/amirrezafateh/MSDNet