Einfacher ist besser: Few-shot-Semantische Segmentierung mit Classifier Weight Transformer

Ein Few-Shot-Semantische Segmentierungssystem besteht typischerweise aus einem CNN-Encoder, einem CNN-Decoder und einem einfachen Klassifikator (der Vordergrund- und Hintergrundpixel trennt). Die meisten bestehenden Methoden meta-lernen alle drei Komponenten des Modells, um eine schnelle Anpassung an eine neue Klasse zu ermöglichen. Da jedoch nur ein einziger Bild im Support-Satz zur Verfügung steht, ist die effektive Anpassung aller drei Komponenten an die neue Klasse äußerst herausfordernd. In dieser Arbeit schlagen wir vor, die Meta-Lernaufgabe zu vereinfachen, indem wir uns ausschließlich auf die einfachste Komponente, den Klassifikator, konzentrieren, während Encoder und Decoder durch vorherige Training vorgehalten werden. Wir vermuten, dass ein kommerziell erhältliches Segmentierungsmodell, das über eine Vielzahl unterschiedlicher Trainingsklassen mit ausreichend Annotationen vortrainiert wurde, reichhaltige, differenzierende Merkmale im Encoder und Decoder erlernen kann, die für beliebige bisher nicht gesehene Klassen anwendbar sind. Dadurch entfällt die Notwendigkeit einer nachfolgenden Meta-Lernphase. Für die Meta-Lernung des Klassifikators führen wir einen Classifier Weight Transformer (CWT) ein, der die Gewichte des auf dem Support-Satz trainierten Klassifikators induktiv dynamisch an jedes Abfragebild anpasst. Umfangreiche Experimente auf zwei Standard-Benchmarks zeigen, dass unsere Methode – trotz ihrer Einfachheit – die bisher besten Alternativen deutlich übertrifft, oft mit einem erheblichen Abstand. Der Quellcode ist verfügbar unter https://github.com/zhiheLu/CWT-for-FSS.