HyperAIHyperAI

Command Palette

Search for a command to run...

SILC: Verbesserung der Vision-Sprache-Vortrainierung durch Selbst-Distillation

Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool Federico Tombari

Zusammenfassung

Die Bild-Text-Vortrainierung auf web-skaligen Bildunterschrift-Datensätzen ist dank des Erfolgs von CLIP und dessen Varianten zur Standardmethode für Klassifikations- und Abrufmodelle mit offener Vokabularität geworden. Mehrere Arbeiten haben zudem CLIP-Features für dichte Vorhersageaufgaben genutzt und die Emergenz von Fähigkeiten für offene Mengen gezeigt. Allerdings fokussiert das kontrastive Ziel dieser Modelle ausschließlich auf die Ausrichtung von Bild und Text und fördert nicht direkt die Lernung von Bildmerkmalen für dichte Vorhersageaufgaben. In dieser Arbeit stellen wir SILC vor, einen neuartigen Rahmen für visuell-sprachliche Vortrainierung. SILC verbessert die kontrastive Bild-Text-Lernung durch die einfache Ergänzung des Lernens von lokalen zu globalen Korrespondenzen mittels Selbst-Distillation. Wir zeigen, dass die Distillation lokaler Bildmerkmale aus einem exponentiell bewegten Durchschnitts-(EMA-)Lehrmodell die Modellleistung bei dichten Vorhersageaufgaben wie Objektdetektion und Segmentierung erheblich steigert, während gleichzeitig Verbesserungen bei bildbasierten Aufgaben wie Klassifikation und Abruf erzielt werden. SILC-Modelle erreichen eine neue State-of-the-Art-Leistung bei Zero-Shot-Klassifikation, Few-Shot-Klassifikation, Bild- und Text-Abruf, Zero-Shot-Segmentierung sowie offener Vokabular-Segmentierung. Darüber hinaus zeigen wir, dass SILC-Merkmale erhebliche Vorteile für offene Vokabular-Detektion, Bildbeschreibung und visuelle Fragebeantwortung bieten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp