vor 17 Tagen

Robuste cross-modale Repräsentationslernung mit progressiver Selbst-Distillation

Alex Andonian, Shixing Chen, Raffay Hamid

Abstract

Das Lernziel des vision-sprachlichen Ansatzes von CLIP berücksichtigt die rauschhaften, viele-zu-viele-Zuordnungen, die in web-abgeleiteten Datensätzen mit Bildunterschriften auftreten, nicht ausreichend, was zu einer ineffizienten Nutzung von Rechenleistung und Daten beiträgt. Um diese Herausforderung anzugehen, stellen wir einen neuartigen Trainingsrahmen vor, der auf cross-modalen contrastiven Lernverfahren basiert und progressive Selbst-Distillation sowie weiche Bild-Text-Zuordnungen nutzt, um robusteren Repräsentationen effizienter aus rauschbehafteten Daten zu lernen. Unser Modell distilliert dabei sein eigenes Wissen, um dynamisch weiche Zuordnungsziele für eine Teilmenge von Bildern und Beschreibungen in jedem Minibatch zu generieren, die anschließend zur Aktualisierung der Modellparameter verwendet werden. Umfassende Evaluationen an 14 Benchmark-Datensätzen zeigen, dass unsere Methode in mehreren Szenarien – einschließlich (a) Zero-Shot-Klassifikation, (b) Linear-Probe-Transfer und (c) Bild-Text-Abfrage – konsistent die Leistung von CLIP übertrifft, ohne zusätzlichen Rechenaufwand zu verursachen. Eine Analyse mithilfe einer auf ImageNet basierenden Robustheits-Testumgebung ergibt, dass unsere Methode gegenüber natürlichen Verteilungsverschiebungen eine bessere effektive Robustheit bietet als sowohl ImageNet-prätrainierte Modelle als auch CLIP selbst. Schließlich zeigt die Prätraining-Evaluation mit Datensätzen, deren Größe sich um zwei Größenordnungen unterscheidet, dass sich unsere Verbesserungen gegenüber CLIP tendenziell mit der Anzahl der Trainingsbeispiele vergrößern.