Visual und textuelle Prior-gesteuerte Maske-Verschmelzung für Few-Shot-Segmentierung und darüber hinaus

Few-shot-Segmentation (FSS) zielt darauf ab, neue Klassen mit nur wenigen annotierten Bildern zu segmentieren. Aufgrund der Vorteile von CLIP, die visuelle und textuelle Informationen gut ausrichtet, kann die Integration von CLIP die Generalisierungsfähigkeit von FSS-Modellen verbessern. Dennoch sind bestehende CLIP-basierte FSS-Methoden auch bei Verwendung des CLIP-Modells weiterhin anfällig für eine Verzerrung der Vorhersage zugunsten der Basis-Klassen, die durch klassenspezifische Interaktionen auf Merkmalslevel verursacht wird. Um dieses Problem zu lösen, schlagen wir ein visuell- und textuell prior-gesteuertes Masken-Assemblierungsnetzwerk (PGMA-Net) vor. Es nutzt einen klassenunabhängigen Masken-Assemblierungsprozess, um die Verzerrung zu verringern, und formaliert verschiedene Aufgaben einheitlich durch die Assemblierung von Prior-Wissen mittels Affinität. Konkret werden zunächst klassenrelevante textuelle und visuelle Merkmale in klassenunabhängige Prior-Wissen in Form von Wahrscheinlichkeitskarten transformiert. Anschließend wird ein prior-gesteuertes Masken-Assemblierungsmodul (PGMAM) mit mehreren allgemeinen Assemblierungseinheiten (GAUs) eingeführt, das vielfältige und plug-and-play-fähige Interaktionen berücksichtigt, wie beispielsweise visuell-textuelle, inter- und intra-bildliche, trainingsfreie sowie hochordentliche Wechselwirkungen. Schließlich wird ein hierarchischer Dekoder mit Kanal-Abbruch-Mechanismus (HDCDM) vorgestellt, um die klassenunabhängige Fähigkeit sicherzustellen. Dieser ermöglicht eine flexible Nutzung der assemblierten Masken und niedrigstufigen Merkmale, ohne auf klassenspezifische Informationen angewiesen zu sein. Das vorgeschlagene PGMA-Net erzielt neue SOTA-Ergebnisse im FSS-Task, mit einem mIoU von $77,6$ auf $\text{PASCAL-}5^i$ und $59,4$ auf $\text{COCO-}20^i$ im 1-Shot-Szenario. Darüber hinaus zeigen wir, dass das PGMA-Net ohne zusätzliche Nachtrainierung Aufgaben wie Bounding-Box-basiertes FSS, cross-domain FSS, Co-Segmentation und Zero-Shot-Segmentation (ZSS) lösen kann, wodurch ein allgemeiner any-shot-Segmentation-Framework entsteht.