CLIPSelf: Vision Transformer distilliert sich selbst für die dichte Vorhersage offener Vokabularien

Offene Vokabular-Dichte-Vorhersageaufgaben, einschließlich Objekterkennung und Bildsegmentierung, wurden durch den Erfolg des kontrastiven Sprach-Bild-Vortrainings (CLIP) vorangebracht. CLIP-Modelle, insbesondere solche, die Vision Transformers (ViTs) einbeziehen, haben eine bemerkenswerte Generalisierungsfähigkeit bei der Nullschuss-Bildklassifizierung gezeigt. Allerdings leiden CLIP ViTs beim Transfer der Sprach-Bild-Ausrichtung von globalen Bildrepräsentationen zu lokalen Bereichsrepräsentationen für offene Vokabular-Dichte-Vorhersageaufgaben unter einem Domänenverschiebungseffekt von vollständigen Bildern zu lokalen Bildbereichen. In dieser Arbeit führen wir eine umfassende Analyse der Bereich-Sprache-Ausrichtung in CLIP-Modellen durch, die für nachgeschaltete offene Vokabular-Dichte-Vorhersageaufgaben entscheidend ist. Anschließend schlagen wir einen Ansatz namens CLIPSelf vor, der die bildbasierte Erkennungsfähigkeit von CLIP ViT auf lokale Bildbereiche anpasst, ohne irgendeine Bereich-Text-Paar zu benötigen. CLIPSelf ermöglicht es ViTs, sich selbst abzuleiten, indem es eine Bereichsrepräsentation aus seiner dichten Merkmalskarte mit der bildbasierten Repräsentation des entsprechenden Bildausschnitts ausrichtet. Mit den verbesserten CLIP ViTs erreichen wir neue Standarts in der Leistung bei offenen Vokabular-Objekterkennung, semantischer Segmentierung und panoptischer Segmentierung über verschiedene Benchmarks hinweg. Die Modelle und der Code werden unter https://github.com/wusize/CLIPSelf veröffentlicht.