HyperAIHyperAI

Command Palette

Search for a command to run...

Text-only Training für Bildunterschriften mit CLIP und eingefügtem Rauschen

David Nukrai Ron Mokady Amir Globerson

Zusammenfassung

Wir betrachten die Aufgabe des Bild-Beschriftungsgenerierens unter Verwendung des CLIP-Modells und zusätzlicher Textdaten während der Trainingsphase, ohne jedoch zusätzliche mit Beschriftungen versehene Bilder zu verwenden. Unser Ansatz basiert darauf, dass CLIP trainiert wird, visuelle und textuelle Einbettungen (Embeddings) ähnlich zu gestalten. Daher müssen wir nur lernen, wie man CLIP-textuelle Einbettungen zurück in Text übersetzt, und dies können wir tun, indem wir einen Decoder für den gefrorenen CLIP-Textencoder nur mit Textdaten trainieren. Wir argumentieren, dass diese Intuition „fast korrekt“ ist, aufgrund einer Lücke zwischen den Einbettungsräumen (embedding spaces), und schlagen vor, dies durch Rauscheinjektion während der Trainingsphase zu beheben. Wir demonstrieren die Effektivität unseres Ansatzes durch die Vorstellung von Stand-of-the-Art-Ergebnissen bei der Null-Shot-Bildbeschriftung über vier Benchmarks hinweg, einschließlich Stilübertragung (style transfer). Der Quellcode, die Daten und die Modelle sind auf GitHub verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp