HyperAIHyperAI

Command Palette

Search for a command to run...

Hybrid Mamba für Few-Shot-Segmentierung

Qianxiong Xu Xuanyi Liu Lanyun Zhu Guosheng Lin Cheng Long Ziyue Li Rui Zhao

Zusammenfassung

Viele Few-Shot-Segmentierungsmethoden (FSS) nutzen Cross-Attention, um Support-Vordergrund (FG)-Informationen in die Abfrage-Features zu fusionieren, unabhängig von der quadratischen Komplexität. Kürzlich hat sich Mamba als fortschrittlich erwiesen, da es intra-sequentielle Abhängigkeiten gut erfassen kann, wobei die Komplexität jedoch nur linear ist. Daher zielen wir darauf ab, einen cross-attention-ähnlichen Mamba-Operator zu entwerfen, um inter-sequentielle Abhängigkeiten für FSS zu erfassen. Ein einfacher Ansatz besteht darin, die Support-Features zu scannen, um sie selektiv in den versteckten Zustand zu komprimieren, der dann als initialer versteckter Zustand dient, um die Abfrage-Features sequenziell zu scannen. Dieser Ansatz leidet jedoch unter zwei Problemen: (1) dem Problem des Support-Verlusts: Während des Scannens der Abfrage-Features werden auch diese schrittweise komprimiert, sodass die im versteckten Zustand enthaltenen Support-Informationen kontinuierlich abnehmen und viele Abfrage-Pixel nicht ausreichend Support-Informationen fusionieren können; (2) dem intra-klassischen Abstandsproblem: Der Abfrage-Vordergrund ist im Wesentlichen ähnlicher sich selbst als dem Support-Vordergrund, d. h., die Abfrage neigt dazu, statt Support-Informationen lieber ihre eigenen, aus dem versteckten Zustand stammenden Merkmale zu nutzen. Der Erfolg von FSS beruht jedoch auf der effektiven Nutzung der Support-Informationen. Um diese Herausforderungen zu bewältigen, entwerfen wir ein hybrides Mamba-Netzwerk (HMNet), das folgende Komponenten enthält: (1) einen unterstützten Rekapitulations-Mamba, der die Support-Informationen periodisch beim Scannen der Abfrage erneut in den versteckten Zustand einfügt, sodass dieser stets reichhaltige Support-Informationen enthält; (2) einen abgefangenen Abfrage-Mamba, der die gegenseitige Interaktion zwischen Abfrage-Pixeln verhindert und stattdessen ermutigt, mehr Support-Informationen aus dem versteckten Zustand zu integrieren. Dadurch wird die Nutzung von Support-Informationen verbessert, was zu einer besseren Leistung führt. Umfassende Experimente wurden auf zwei öffentlichen Benchmarks durchgeführt, die die Überlegenheit von HMNet belegen. Der Quellcode ist unter https://github.com/Sam1224/HMNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp