HyperAIHyperAI
vor 11 Tagen

Lernen von maskenbewussten CLIP-Darstellungen für zero-shot Segmentierung

Siyu Jiao, Yunchao Wei, Yaowei Wang, Yao Zhao, Humphrey Shi
Lernen von maskenbewussten CLIP-Darstellungen für zero-shot Segmentierung
Abstract

Kürzlich werden vortrainierte Vision-Sprache-Modelle zunehmend für die anspruchsvolle Aufgabe der zero-shot-Segmentierung eingesetzt. Typische Ansätze folgen dem Paradigma, zunächst Masken-Vorschläge zu generieren und anschließend CLIP zur Klassifikation dieser Vorschläge einzusetzen. Um die zero-shot-Übertragbarkeit von CLIP zu bewahren, wurde in früheren Arbeiten traditionell empfohlen, CLIP während des Trainings zu fixieren. In dieser Arbeit zeigen wir jedoch, dass CLIP gegenüber verschiedenen Masken-Vorschlägen empfindlich ist und tendenziell ähnliche Vorhersagen für verschiedene Masken-Vorschläge derselben Bildes erzeugt. Diese Empfindlichkeitslosigkeit führt zu einer hohen Anzahl an Falschpositiven bei der Klassifikation von Masken-Vorschlägen. Dieses Problem hängt hauptsächlich damit zusammen, dass CLIP mit Bild-Level-Supervision trainiert wurde. Um dieses Problem zu mildern, schlagen wir eine einfache, aber effektive Methode vor, die als Mask-aware Fine-tuning (MAFT) bezeichnet wird. Konkret wird ein Image-Proposals CLIP Encoder (IP-CLIP Encoder) vorgestellt, der beliebig viele Bild- und Masken-Vorschläge gleichzeitig verarbeiten kann. Anschließend werden eine maskenbewusste Verlustfunktion und eine Selbst-Distillation-Verlustfunktion entworfen, um den IP-CLIP Encoder zu feinabstimmen. Dadurch wird sichergestellt, dass CLIP auf unterschiedliche Masken-Vorschläge reagiert, ohne die Übertragbarkeit zu beeinträchtigen. Auf diese Weise können maskenbewusste Repräsentationen leicht gelernt werden, sodass die wahren Positiven deutlich hervorstechen. Besonders hervorzuheben ist, dass unsere Lösung nahtlos in die meisten bestehenden Methoden integriert werden kann, ohne während des Feinabstimmungsprozesses zusätzliche Parameter einzuführen. Wir führen umfangreiche Experimente auf etablierten zero-shot-Benchmark-Datenbanken durch. Mit MAFT wird die Leistung der derzeit besten Methoden erheblich verbessert: 50,4 % (+8,2 %) auf COCO, 81,8 % (+3,2 %) auf Pascal-VOC und 8,7 % (+4,3 %) auf ADE20K hinsichtlich der mIoU für nicht gesehene Klassen. Der Quellcode ist unter https://github.com/jiaosiyu1999/MAFT.git verfügbar.

Lernen von maskenbewussten CLIP-Darstellungen für zero-shot Segmentierung | Neueste Forschungsarbeiten | HyperAI