HyperAIHyperAI
vor 11 Tagen

ZegCLIP: Hin zu einer Anpassung von CLIP für zero-shot semantische Segmentierung

Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu
ZegCLIP: Hin zu einer Anpassung von CLIP für zero-shot semantische Segmentierung
Abstract

Kürzlich wurde CLIP über ein zweistufiges Verfahren auf pixelgenaue Zero-Shot-Lernaufgaben angewendet. Der grundlegende Ansatz besteht darin, zunächst klassenunabhängige Regionsvorschläge zu generieren und anschließend die zugeschnittenen Vorschlagsregionen an CLIP weiterzugeben, um dessen Fähigkeit zur bildweisen Zero-Shot-Klassifikation auszunutzen. Obwohl diese Vorgehensweise wirksam ist, erfordert sie zwei Bildencoder – einen für die Erzeugung der Vorschläge und einen für CLIP – was zu einer komplexen Pipeline und hohen Rechenkosten führt. In dieser Arbeit verfolgen wir eine einfachere und effizientere einstufige Lösung, die die Zero-Shot-Vorhersagefähigkeit von CLIP direkt von der Bild- auf die Pixel-Ebene erweitert. Unsere Untersuchung beginnt mit einer einfachen Erweiterung als Baseline, die semantische Masken durch Vergleich der Ähnlichkeit zwischen Text- und Patch-Embeddings, die aus CLIP extrahiert werden, generiert. Allerdings neigt dieser Ansatz stark zur Überanpassung an gesehene Klassen und zeigt eine schlechte Generalisierbarkeit auf nicht gesehene Klassen. Um dieses Problem zu bewältigen, schlagen wir drei einfache, aber wirksame Design-Elemente vor und zeigen, dass sie die inhärente Zero-Shot-Fähigkeit von CLIP erheblich bewahren und die Generalisierung auf pixelgenauer Ebene verbessern. Die Integration dieser Modifikationen führt zu einem effizienten System für Zero-Shot-Semantische Segmentierung namens ZegCLIP. In umfangreichen Experimenten an drei öffentlichen Benchmarks zeigt ZegCLIP eine herausragende Leistung und übertrifft die derzeit besten Methoden sowohl im „induktiven“ als auch im „transduktiven“ Zero-Shot-Szenario deutlich. Zudem erreicht unser einstufiger Ansatz ZegCLIP im Vergleich zur zweistufigen Methode eine Beschleunigung um etwa das Fünffache während der Inferenz. Den Quellcode stellen wir unter https://github.com/ZiqinZhou66/ZegCLIP.git zur Verfügung.

ZegCLIP: Hin zu einer Anpassung von CLIP für zero-shot semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI