HyperAIHyperAI

Command Palette

Search for a command to run...

Visual und textuelle Prior-gesteuerte Maske-Verschmelzung für Few-Shot-Segmentierung und darüber hinaus

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

Zusammenfassung

Few-shot-Segmentation (FSS) zielt darauf ab, neue Klassen mit nur wenigen annotierten Bildern zu segmentieren. Aufgrund der Vorteile von CLIP, die visuelle und textuelle Informationen gut ausrichtet, kann die Integration von CLIP die Generalisierungsfähigkeit von FSS-Modellen verbessern. Dennoch sind bestehende CLIP-basierte FSS-Methoden auch bei Verwendung des CLIP-Modells weiterhin anfällig für eine Verzerrung der Vorhersage zugunsten der Basis-Klassen, die durch klassenspezifische Interaktionen auf Merkmalslevel verursacht wird. Um dieses Problem zu lösen, schlagen wir ein visuell- und textuell prior-gesteuertes Masken-Assemblierungsnetzwerk (PGMA-Net) vor. Es nutzt einen klassenunabhängigen Masken-Assemblierungsprozess, um die Verzerrung zu verringern, und formaliert verschiedene Aufgaben einheitlich durch die Assemblierung von Prior-Wissen mittels Affinität. Konkret werden zunächst klassenrelevante textuelle und visuelle Merkmale in klassenunabhängige Prior-Wissen in Form von Wahrscheinlichkeitskarten transformiert. Anschließend wird ein prior-gesteuertes Masken-Assemblierungsmodul (PGMAM) mit mehreren allgemeinen Assemblierungseinheiten (GAUs) eingeführt, das vielfältige und plug-and-play-fähige Interaktionen berücksichtigt, wie beispielsweise visuell-textuelle, inter- und intra-bildliche, trainingsfreie sowie hochordentliche Wechselwirkungen. Schließlich wird ein hierarchischer Dekoder mit Kanal-Abbruch-Mechanismus (HDCDM) vorgestellt, um die klassenunabhängige Fähigkeit sicherzustellen. Dieser ermöglicht eine flexible Nutzung der assemblierten Masken und niedrigstufigen Merkmale, ohne auf klassenspezifische Informationen angewiesen zu sein. Das vorgeschlagene PGMA-Net erzielt neue SOTA-Ergebnisse im FSS-Task, mit einem mIoU von 77,677,677,6 auf PASCAL-5i\text{PASCAL-}5^iPASCAL-5i und 59,459,459,4 auf COCO-20i\text{COCO-}20^iCOCO-20i im 1-Shot-Szenario. Darüber hinaus zeigen wir, dass das PGMA-Net ohne zusätzliche Nachtrainierung Aufgaben wie Bounding-Box-basiertes FSS, cross-domain FSS, Co-Segmentation und Zero-Shot-Segmentation (ZSS) lösen kann, wodurch ein allgemeiner any-shot-Segmentation-Framework entsteht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visual und textuelle Prior-gesteuerte Maske-Verschmelzung für Few-Shot-Segmentierung und darüber hinaus | Paper | HyperAI