Bridge the Points: Graph-basierte Few-shot Segment Anything semantisch

Die jüngsten Fortschritte in großen vortrainierten Techniken haben die Fähigkeiten von Vision-Grundmodellen erheblich verbessert, insbesondere des Segment Anything Models (SAM), das präzise Masken auf Basis von Punkt- und Rechteck-Prompts generieren kann. Neuere Studien erweitern SAM auf die Few-shot-Semantische Segmentierung (FSS), wobei der Fokus auf der Generierung von Prompts für eine automatisierte semantische Segmentierung basierend auf SAM liegt. Diese Ansätze stoßen jedoch auf Schwierigkeiten bei der Auswahl geeigneter Prompts, erfordern spezifische Hyperparameter-Einstellungen für unterschiedliche Szenarien und weisen aufgrund einer übermäßigen Nutzung von SAM längere Inference-Zeiten bei One-shot-Verarbeitung auf, was zu geringer Effizienz und begrenzter Automatisierung führt. Um diese Probleme zu lösen, schlagen wir einen einfachen, aber effektiven Ansatz basierend auf Graph-Analyse vor. Insbesondere wählt ein Positive-Negative-Alignment-Modul dynamisch Punkt-Prompts zur Maskengenerierung aus, wobei insbesondere das Potenzial des Hintergrund-Kontexts als negative Referenz erschlossen wird. Ein anschließendes Point-Mask-Clustering-Modul ordnet die Granularität von Masken und ausgewählten Punkten als gerichteten Graphen basierend auf der Überdeckung der Masken über die Punkte an. Diese Punkte werden anschließend effizient durch Zerlegung der schwach verbundenen Komponenten des gerichteten Graphen aggregiert, wodurch natürliche, eindeutige Cluster entstehen. Schließlich aggregieren positive und übermäßige Gating-Mechanismen, die von der graphbasierten Granularitätsanpassung profitieren, hochzuverlässige Masken und filtern falsch-positive Masken heraus, um die endgültige Vorhersage zu erzeugen – dabei wird der Bedarf an zusätzlichen Hyperparametern und redundanten Maskengenerierungen reduziert. Umfangreiche experimentelle Analysen an Standard-FSS-, One-shot-Part-Segmentation- und Cross-Domain-FSS-Datensätzen bestätigen die Effektivität und Effizienz des vorgeschlagenen Ansatzes. Der Ansatz übertrifft state-of-the-art-Allzweckmodelle mit einem mIoU von 58,7 % auf COCO-20i und 35,2 % auf LVIS-92i. Der Quellcode ist verfügbar unter https://andyzaq.github.io/GF-SAM/.