HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste cross-modale Repräsentationslernung mit progressiver Selbst-Distillation

Alex Andonian Shixing Chen Raffay Hamid

Zusammenfassung

Das Lernziel des vision-sprachlichen Ansatzes von CLIP berücksichtigt die rauschhaften, viele-zu-viele-Zuordnungen, die in web-abgeleiteten Datensätzen mit Bildunterschriften auftreten, nicht ausreichend, was zu einer ineffizienten Nutzung von Rechenleistung und Daten beiträgt. Um diese Herausforderung anzugehen, stellen wir einen neuartigen Trainingsrahmen vor, der auf cross-modalen contrastiven Lernverfahren basiert und progressive Selbst-Distillation sowie weiche Bild-Text-Zuordnungen nutzt, um robusteren Repräsentationen effizienter aus rauschbehafteten Daten zu lernen. Unser Modell distilliert dabei sein eigenes Wissen, um dynamisch weiche Zuordnungsziele für eine Teilmenge von Bildern und Beschreibungen in jedem Minibatch zu generieren, die anschließend zur Aktualisierung der Modellparameter verwendet werden. Umfassende Evaluationen an 14 Benchmark-Datensätzen zeigen, dass unsere Methode in mehreren Szenarien – einschließlich (a) Zero-Shot-Klassifikation, (b) Linear-Probe-Transfer und (c) Bild-Text-Abfrage – konsistent die Leistung von CLIP übertrifft, ohne zusätzlichen Rechenaufwand zu verursachen. Eine Analyse mithilfe einer auf ImageNet basierenden Robustheits-Testumgebung ergibt, dass unsere Methode gegenüber natürlichen Verteilungsverschiebungen eine bessere effektive Robustheit bietet als sowohl ImageNet-prätrainierte Modelle als auch CLIP selbst. Schließlich zeigt die Prätraining-Evaluation mit Datensätzen, deren Größe sich um zwei Größenordnungen unterscheidet, dass sich unsere Verbesserungen gegenüber CLIP tendenziell mit der Anzahl der Trainingsbeispiele vergrößern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Robuste cross-modale Repräsentationslernung mit progressiver Selbst-Distillation | Paper | HyperAI