Vorhersagekalibrierung für verallgemeinerte Few-Shot-Semantische Segmentierung

Generalized Few-shot Semantic Segmentation (GFSS) zielt darauf ab, jedes Bildpixel in entweder Basisklassen mit reichlich Trainingsbeispielen oder in neue Klassen mit nur wenigen (z.B. 1-5) Trainingsbildern pro Klasse zu segmentieren. Im Vergleich zur weitgehend untersuchten Few-shot Semantic Segmentation (FSS), die sich auf die Segmentierung neuer Klassen beschränkt, ist GFSS trotz seiner größeren Praktikabilität viel weniger erforscht. Der bestehende Ansatz für GFSS basiert auf der Fusions von Klassifikatorparametern, bei der ein neu trainierter Klassifikator für neue Klassen und ein vortrainierter Klassifikator für Basisklassen kombiniert werden, um einen neuen Klassifikator zu bilden. Da die Trainingsdaten hauptsächlich von Basisklassen dominiert sind, ist dieser Ansatz unvermeidbar zugunsten der Basisklassen verfälscht. In dieser Arbeit schlagen wir ein neues Predictive Calibration Network (PCN) vor, um dieses Problem zu lösen. Anstatt die Klassifikatorparameter zu fusionieren, fusionieren wir die von den Basisklassifikatoren und den neuen Klassifikatoren getrennt erzeugten Scores. Um sicherzustellen, dass die gefusionierten Scores nicht zugunsten der Basisklassen oder neuer Klassen verfälscht sind, wird ein neues Transformer-basiertes Kalibrierungsmodul eingeführt. Es ist bekannt, dass niedrigere Feature-Ebenen nützlicher sind als höhere Ebenen zur Erkennung von Kantendaten in einem Eingangsbild. Daher bauen wir ein Cross-Attention-Modul auf, das die endgültige Vorhersage des Klassifikators unter Verwendung der gefusionierten Multi-Level-Features leitet. Allerdings sind Transformatoren rechnerisch anspruchsvoll. Entscheidend ist hierbei, dass das vorgeschlagene Cross-Attention-Modul auf Basis der Merkmals-Score-Kreuzkovarianz konzipiert wurde und episodisch trainiert wird, um während der Inferenz generalisierbar zu sein. Ausführliche Experimente auf PASCAL-$5^{i}$ und COCO-$20^{i}$ zeigen, dass unser PCN die state-of-the-art Alternativen deutlich übertrifft.