Hybrid Mamba für Few-Shot-Segmentierung

Viele Few-Shot-Segmentierungsmethoden (FSS) nutzen Cross-Attention, um Support-Vordergrund (FG)-Informationen in die Abfrage-Features zu fusionieren, unabhängig von der quadratischen Komplexität. Kürzlich hat sich Mamba als fortschrittlich erwiesen, da es intra-sequentielle Abhängigkeiten gut erfassen kann, wobei die Komplexität jedoch nur linear ist. Daher zielen wir darauf ab, einen cross-attention-ähnlichen Mamba-Operator zu entwerfen, um inter-sequentielle Abhängigkeiten für FSS zu erfassen. Ein einfacher Ansatz besteht darin, die Support-Features zu scannen, um sie selektiv in den versteckten Zustand zu komprimieren, der dann als initialer versteckter Zustand dient, um die Abfrage-Features sequenziell zu scannen. Dieser Ansatz leidet jedoch unter zwei Problemen: (1) dem Problem des Support-Verlusts: Während des Scannens der Abfrage-Features werden auch diese schrittweise komprimiert, sodass die im versteckten Zustand enthaltenen Support-Informationen kontinuierlich abnehmen und viele Abfrage-Pixel nicht ausreichend Support-Informationen fusionieren können; (2) dem intra-klassischen Abstandsproblem: Der Abfrage-Vordergrund ist im Wesentlichen ähnlicher sich selbst als dem Support-Vordergrund, d. h., die Abfrage neigt dazu, statt Support-Informationen lieber ihre eigenen, aus dem versteckten Zustand stammenden Merkmale zu nutzen. Der Erfolg von FSS beruht jedoch auf der effektiven Nutzung der Support-Informationen. Um diese Herausforderungen zu bewältigen, entwerfen wir ein hybrides Mamba-Netzwerk (HMNet), das folgende Komponenten enthält: (1) einen unterstützten Rekapitulations-Mamba, der die Support-Informationen periodisch beim Scannen der Abfrage erneut in den versteckten Zustand einfügt, sodass dieser stets reichhaltige Support-Informationen enthält; (2) einen abgefangenen Abfrage-Mamba, der die gegenseitige Interaktion zwischen Abfrage-Pixeln verhindert und stattdessen ermutigt, mehr Support-Informationen aus dem versteckten Zustand zu integrieren. Dadurch wird die Nutzung von Support-Informationen verbessert, was zu einer besseren Leistung führt. Umfassende Experimente wurden auf zwei öffentlichen Benchmarks durchgeführt, die die Überlegenheit von HMNet belegen. Der Quellcode ist unter https://github.com/Sam1224/HMNet verfügbar.