HyperAIHyperAI
vor 17 Tagen

Feinabstimmende Bildbeschreibung mit CLIP Belohnung

Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal
Feinabstimmende Bildbeschreibung mit CLIP Belohnung
Abstract

Moderne Bildbeschreibungsmodelle werden üblicherweise mit Textähnlichkeitszielen trainiert. Da jedoch die Referenzbeschreibungen in öffentlichen Datensätzen oft die auffälligsten und allgemein verbreiteten Objekte beschreiben, neigen Modelle, die mit Textähnlichkeitszielen trainiert wurden, dazu, spezifische und detaillierte Aspekte eines Bildes zu übersehen, die es von anderen unterscheiden. Um eine beschreibungsreichere und differenziertere Generierung von Beschreibungen zu erreichen, schlagen wir vor, CLIP, einen multimodalen Encoder, der auf riesigen Paaren aus Bildern und Texten aus dem Web trainiert wurde, zur Berechnung der multimodalen Ähnlichkeit heranzuziehen und diese als Belohnungsfunktion zu verwenden. Außerdem stellen wir eine einfache Feinabstimmungsstrategie für den CLIP-Textencoder vor, die die Grammatik verbessert, ohne zusätzliche Textannotierungen zu erfordern. Dadurch entfällt vollständig die Notwendigkeit von Referenzbeschreibungen bei der Berechnung der Belohnung. Um beschreibungsreiche Beschreibungen umfassend zu evaluieren, führen wir FineCapEval ein, einen neuen Datensatz zur Bewertung von Beschreibungen mit feinkörnigen Kriterien: Gesamtbewertung, Hintergrund, Objekte, Relationen. In unseren Experimenten zu Text-zu-Bild-Suche und FineCapEval erzeugt das vorgeschlagene CLIP-gesteuerte Modell differenziertere Beschreibungen als das CIDEr-optimierte Modell. Zudem zeigen wir, dass unsere unsupervisierte Grammatikfeinabstimmung des CLIP-Textencoders das Degenerationsproblem der naiven CLIP-Belohnung verringert. Schließlich präsentieren wir eine menschliche Analyse, in der die Bewertenden die CLIP-Belohnung gegenüber den CIDEr- und MLE-Zielen nach verschiedenen Kriterien klar bevorzugen. Code und Daten: https://github.com/j-min/CLIP-Caption-Reward