Hierarchische dichte Korrelations-Distillation für Few-Shot-Segmentierung

Few-shot semantische Segmentierung (FSS) zielt darauf ab, klassenunabhängige Modelle zu entwickeln, die unbekannte Klassen mit nur wenigen Annotationen segmentieren können. Bisherige Ansätze, die sich auf semantische Merkmale und Prototypendarstellungen beschränken, leiden unter einer groben Segmentierungsgenauigkeit und Überanpassung an das Trainingsset. In dieser Arbeit stellen wir den hierarchisch entkoppelten Matching-Netzwerk (HDMNet) vor, das pixelgenaue Korrelationen im Support-Image auf Basis der Transformer-Architektur erfasst. Die Selbst-Attention-Module dienen dazu, hierarchisch dichte Merkmale zu generieren, um eine kaskadenartige Übereinstimmung zwischen Query- und Support-Merkmalen zu ermöglichen. Darüber hinaus schlagen wir ein Matching-Modul vor, um die Überanpassung an das Trainingsset zu verringern, und führen Korrelations-Distillation ein, die mithilfe semantischer Korrespondenzen von grober zu feiner Auflösung die fein granulare Segmentierung verbessert. Unsere Methode zeigt in Experimenten überzeugende Ergebnisse: Wir erreichen eine mIoU von $50{,}0\%$ auf dem \coco~Datensatz im One-Shot-Setting und $56{,}0\%$ im Five-Shot-Segmentierungsfall.