Selbstkalibriertes Kreuz-Attention-Netzwerk für Few-Shot-Segmentierung

Der Schlüssel zum Erfolg der Few-Shot-Segmentierung (FSS) liegt darin, wie effektiv Support-Samples genutzt werden können. Die meisten Ansätze komprimieren die Vordergrund-(FG-)Merkmale des Support-Samples zu Prototypen, wodurch jedoch räumliche Details verloren gehen. Andere Verfahren setzen stattdessen auf Cross-Attention, um die Abfrage- (Query-)Merkmale mit unkomprimierten FG-Merkmale des Support-Samples zu fusionieren. Während die FG-Merkmale der Abfrage mit den FG-Merkmale des Support-Samples fusioniert werden können, findet die BG-Merkmale der Abfrage keine entsprechenden BG-Merkmale im Support-FG, was zwangsläufig zur Integration unähnlicher Merkmale führt. Zudem geraten sowohl die FG- als auch die BG-Merkmale der Abfrage durch die gemeinsame Fusion mit den Support-FG-Merkmale in Verwirrung, was zu einer ineffektiven Segmentierung führt. Um diese Probleme zu bewältigen, entwickeln wir einen selbstkalibrierten Cross-Attention-(SCCA-)Block. Zur effizienten patchbasierten Aufmerksamkeit werden zunächst Abfrage- und Support-Merkmale in Patchs aufgeteilt. Anschließend entwerfen wir ein Patch-Alignment-Modul, das jeden Abfrage-Patch mit dem am besten passenden Support-Patch ausrichtet, um eine verbesserte Cross-Attention zu ermöglichen. Konkret nimmt SCCA einen Abfrage-Patch als Q auf und gruppiert die Patchs aus demselben Abfragebild sowie die ausgerichteten Patchs aus dem Support-Bild als K & V. Auf diese Weise werden die BG-Merkmale der Abfrage mit entsprechenden BG-Merkmale (aus den Abfrage-Patchs) fusioniert, wodurch die oben genannten Probleme gemildert werden. Zudem implementieren wir bei der Berechnung von SCCA eine skalierte-Cosinus-Mechanismus, um die Support-Merkmale effizienter für die Ähnlichkeitsberechnung auszunutzen. Umfangreiche Experimente auf PASCAL-5^i und COCO-20^i belegen die Überlegenheit unseres Modells; beispielsweise erreicht es bei einem 5-Shot-Setting auf COCO-20^i eine mIoU-Verbesserung von 5,6 % gegenüber den vorherigen State-of-the-Arts. Der Quellcode ist unter https://github.com/Sam1224/SCCAN verfügbar.