Label Anything: Mehrklassige Few-Shot-Semantische Segmentierung mit visuellen Prompting

Wir präsentieren Label Anything, eine innovative neuronale Netzarchitektur für Few-Shot-Semantische Segmentierung (FSS), die sich durch bemerkenswerte Verallgemeinerungsfähigkeit über mehrere Klassen hinweg auszeichnet, wobei pro Klasse nur minimale Beispiele erforderlich sind. Im Gegensatz zu herkömmlichen FSS-Methoden, die hauptsächlich auf Masken zur Annotation der Support-Bilder setzen, führt Label Anything vielfältige visuelle Prompt-Formen – Punkte, Bounding Boxes und Masken – ein, wodurch die Vielseitigkeit und Anpassungsfähigkeit des Ansatzes erheblich gesteigert wird. Einzigartig an unserer Herangehensweise ist, dass Label Anything für den end-to-end-Training in mehrklassigen FSS-Szenarien konzipiert ist und effizient aus unterschiedlichen Konfigurationen von Support-Sets lernt, ohne erneut trainiert werden zu müssen. Dieser Ansatz ermöglicht eine „universelle“ Anwendung auf diverse FSS-Herausforderungen – von 1-way 1-shot bis hin zu komplexen N-way K-shot-Konfigurationen – und bleibt dabei unabhängig von der spezifischen Anzahl an Klassenbeispielen. Diese innovative Trainingsstrategie reduziert den Rechenaufwand erheblich und verbessert die Anpassungsfähigkeit und Verallgemeinerungsfähigkeit des Modells erheblich bei einer Vielzahl von Segmentierungsaufgaben. Unsere umfassende experimentelle Validierung, insbesondere die Erzielung von State-of-the-Art-Ergebnissen auf der COCO-20i-Benchmark, unterstreicht die robuste Verallgemeinerungsfähigkeit und Flexibilität von Label Anything. Der Quellcode ist öffentlich verfügbar unter: https://github.com/pasqualedem/LabelAnything.