HyperAIHyperAI

Command Palette

Search for a command to run...

CLIPSelf: Vision Transformer distilliert sich selbst für die dichte Vorhersage offener Vokabularien

Size Wu; Wenwei Zhang; Lumin Xu; Sheng Jin; Xiangtai Li; Wentao Liu; Chen Change Loy

Zusammenfassung

Offene Vokabular-Dichte-Vorhersageaufgaben, einschließlich Objekterkennung und Bildsegmentierung, wurden durch den Erfolg des kontrastiven Sprach-Bild-Vortrainings (CLIP) vorangebracht. CLIP-Modelle, insbesondere solche, die Vision Transformers (ViTs) einbeziehen, haben eine bemerkenswerte Generalisierungsfähigkeit bei der Nullschuss-Bildklassifizierung gezeigt. Allerdings leiden CLIP ViTs beim Transfer der Sprach-Bild-Ausrichtung von globalen Bildrepräsentationen zu lokalen Bereichsrepräsentationen für offene Vokabular-Dichte-Vorhersageaufgaben unter einem Domänenverschiebungseffekt von vollständigen Bildern zu lokalen Bildbereichen. In dieser Arbeit führen wir eine umfassende Analyse der Bereich-Sprache-Ausrichtung in CLIP-Modellen durch, die für nachgeschaltete offene Vokabular-Dichte-Vorhersageaufgaben entscheidend ist. Anschließend schlagen wir einen Ansatz namens CLIPSelf vor, der die bildbasierte Erkennungsfähigkeit von CLIP ViT auf lokale Bildbereiche anpasst, ohne irgendeine Bereich-Text-Paar zu benötigen. CLIPSelf ermöglicht es ViTs, sich selbst abzuleiten, indem es eine Bereichsrepräsentation aus seiner dichten Merkmalskarte mit der bildbasierten Repräsentation des entsprechenden Bildausschnitts ausrichtet. Mit den verbesserten CLIP ViTs erreichen wir neue Standarts in der Leistung bei offenen Vokabular-Objekterkennung, semantischer Segmentierung und panoptischer Segmentierung über verschiedene Benchmarks hinweg. Die Modelle und der Code werden unter https://github.com/wusize/CLIPSelf veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp