Eine starke Grundlinie für verallgemeinerte Few-Shot-Semantische Segmentierung

Dieses Papier stellt einen verallgemeinerten Few-Shot-Segmentierungsrahmen vor, der einen einfachen Trainingsprozess und eine leicht optimierbare Inferenzphase aufweist. Insbesondere schlagen wir ein einfaches, aber effektives Modell vor, das auf dem bekannten InfoMax-Prinzip basiert, bei dem die gegenseitige Information (Mutual Information, MI) zwischen den gelernten Merkmalsrepräsentationen und ihren entsprechenden Vorhersagen maximiert wird. Zusätzlich werden die aus unserer MI-basierten Formulierung abgeleiteten Terme mit einem Wissensdistillations-Term kombiniert, um das Wissen über die Basisklassen zu bewahren. Mit einem einfachen Trainingsprozess kann unser Inferenzmodell auf jedem Segmentierungsnetzwerk angewendet werden, das auf Basisklassen trainiert wurde. Das vorgeschlagene Inferenzmodell erzielt erhebliche Verbesserungen bei den gängigen Few-Shot-Segmentierungsbenchmarks PASCAL-$5^i$ und COCO-$20^i$. Besonders bei neuen Klassen liegen die Verbesserungen im 1-Shot- und 5-Shot-Szenario jeweils zwischen 7% und 26% (PASCAL-$5^i$) sowie zwischen 3% und 12% (COCO-$20^i$). Des Weiteren schlagen wir eine anspruchsvollere Einstellung vor, bei der die Leistungsdifferenzen noch weiter verstärkt werden. Unser Code ist öffentlich verfügbar unter https://github.com/sinahmr/DIaM.