SILC: Verbesserung der Vision-Sprache-Vortrainierung durch Selbst-Distillation

Die Bild-Text-Vortrainierung auf web-skaligen Bildunterschrift-Datensätzen ist dank des Erfolgs von CLIP und dessen Varianten zur Standardmethode für Klassifikations- und Abrufmodelle mit offener Vokabularität geworden. Mehrere Arbeiten haben zudem CLIP-Features für dichte Vorhersageaufgaben genutzt und die Emergenz von Fähigkeiten für offene Mengen gezeigt. Allerdings fokussiert das kontrastive Ziel dieser Modelle ausschließlich auf die Ausrichtung von Bild und Text und fördert nicht direkt die Lernung von Bildmerkmalen für dichte Vorhersageaufgaben. In dieser Arbeit stellen wir SILC vor, einen neuartigen Rahmen für visuell-sprachliche Vortrainierung. SILC verbessert die kontrastive Bild-Text-Lernung durch die einfache Ergänzung des Lernens von lokalen zu globalen Korrespondenzen mittels Selbst-Distillation. Wir zeigen, dass die Distillation lokaler Bildmerkmale aus einem exponentiell bewegten Durchschnitts-(EMA-)Lehrmodell die Modellleistung bei dichten Vorhersageaufgaben wie Objektdetektion und Segmentierung erheblich steigert, während gleichzeitig Verbesserungen bei bildbasierten Aufgaben wie Klassifikation und Abruf erzielt werden. SILC-Modelle erreichen eine neue State-of-the-Art-Leistung bei Zero-Shot-Klassifikation, Few-Shot-Klassifikation, Bild- und Text-Abruf, Zero-Shot-Segmentierung sowie offener Vokabular-Segmentierung. Darüber hinaus zeigen wir, dass SILC-Merkmale erhebliche Vorteile für offene Vokabular-Detektion, Bildbeschreibung und visuelle Fragebeantwortung bieten.