Text-only Training für Bildunterschriften mit CLIP und eingefügtem Rauschen

Wir betrachten die Aufgabe des Bild-Beschriftungsgenerierens unter Verwendung des CLIP-Modells und zusätzlicher Textdaten während der Trainingsphase, ohne jedoch zusätzliche mit Beschriftungen versehene Bilder zu verwenden. Unser Ansatz basiert darauf, dass CLIP trainiert wird, visuelle und textuelle Einbettungen (Embeddings) ähnlich zu gestalten. Daher müssen wir nur lernen, wie man CLIP-textuelle Einbettungen zurück in Text übersetzt, und dies können wir tun, indem wir einen Decoder für den gefrorenen CLIP-Textencoder nur mit Textdaten trainieren. Wir argumentieren, dass diese Intuition „fast korrekt“ ist, aufgrund einer Lücke zwischen den Einbettungsräumen (embedding spaces), und schlagen vor, dies durch Rauscheinjektion während der Trainingsphase zu beheben. Wir demonstrieren die Effektivität unseres Ansatzes durch die Vorstellung von Stand-of-the-Art-Ergebnissen bei der Null-Shot-Bildbeschriftung über vier Benchmarks hinweg, einschließlich Stilübertragung (style transfer). Der Quellcode, die Daten und die Modelle sind auf GitHub verfügbar.