Convolutions Die Hard: Offene Vokabularsegmentierung mit einer einzigen gefrorenen konvolutionellen CLIP

Die Segmentierung offener Vokabulare ist eine anspruchsvolle Aufgabe, die das Segmentieren und Erkennen von Objekten aus einer offenen Menge von Kategorien erfordert. Ein Ansatz zur Bewältigung dieser Herausforderung besteht darin, multimodale Modelle wie CLIP zu nutzen, um Bild- und Textmerkmale in einem gemeinsamen Einbettungsraum bereitzustellen. Dies schließt die Lücke zwischen der Segmentierung geschlossener und offener Vokabulare. Daher verwenden bestehende Methoden häufig ein zweistufiges Framework, bei dem die Eingaben zunächst durch einen Maskengenerator und dann zusammen mit den vorhergesagten Masken durch das CLIP-Modell geleitet werden. Dieser Prozess beinhaltet das mehrfache Extrahieren von Merkmalen aus Bildern, was sowohl ineffektiv als auch zeitaufwendig sein kann.Im Gegensatz dazu schlagen wir vor, alles in ein einstufiges Framework zu integrieren, indem wir einen gemeinsamen gefrorenen Faltungs-CLIP-Rumpf verwenden. Dies vereinfacht den aktuellen zweistufigen Workflow nicht nur erheblich, sondern führt auch zu einem besseren Kompromiss zwischen Genauigkeit und Kosten. Das vorgeschlagene FC-CLIP profitiert von folgenden Beobachtungen: Der gefrorene CLIP-Rumpf behält die Fähigkeit zur Klassifikation offener Vokabulare und kann gleichzeitig als leistungsfähiger Maskengenerator dienen. Zudem verallgemeinert sich der faltungs-basierte CLIP besser auf höhere Eingabeauflösungen als jene, die während des kontrastiven Bild-Text-Vortrainings verwendet wurden.Bei der Ausbildung ausschließlich mit COCO-Panoptik-Daten und der Nullschuss-Testung (zero-shot testing) erreicht FC-CLIP 26,8 PQ (Panoptic Quality), 16,8 AP (Average Precision) und 34,1 mIoU (mean Intersection over Union) auf ADE20K; 18,2 PQ und 27,9 mIoU auf Mapillary Vistas; sowie 44,0 PQ, 26,8 AP und 56,2 mIoU auf Cityscapes. Diese Ergebnisse übertreffen den Stand der Technik um +4,2 PQ, +2,4 AP und +4,2 mIoU auf ADE20K; +4,0 PQ auf Mapillary Vistas; sowie +20,1 PQ auf Cityscapes.Zusätzlich ist die Trainings- und Testzeit von FC-CLIP jeweils um 7,5-fach und 6,6-fach kürzer als bei vergleichbarer Vorarbeit (prior art), wobei es gleichzeitig 5,9-fach weniger Parameter verwendet. FC-CLIP setzt zudem neue Maßstäbe für die Leistung bei verschiedenen Datensätzen für semantische Segmentierung offener Vokabulare.Quellcode: https://github.com/bytedance/fc-clip