ClipCap: CLIP Prefix für die Bildbeschreibung

Image Captioning ist eine grundlegende Aufgabe im Bereich der Vision-Language-Verständnis, bei der ein Modell eine textuelle, informativ gehaltene Beschreibung für ein gegebenes Eingabebild vorhersagt. In diesem Paper präsentieren wir einen einfachen Ansatz zur Lösung dieser Aufgabe. Wir verwenden die CLIP-Codierung als Präfix für die Beschreibung, indem wir ein einfaches Abbildungsnetzwerk einsetzen, und fine-tunen anschließend ein Sprachmodell, um die Bildbeschreibungen zu generieren. Das kürzlich vorgeschlagene CLIP-Modell verfügt über reichhaltige semantische Merkmale, die mit textuellem Kontext trainiert wurden, was es besonders gut für die Vision-Language-Wahrnehmung geeignet macht. Unser zentrales Konzept besteht darin, gemeinsam mit einem vortrainierten Sprachmodell (GPT2) ein umfassendes Verständnis sowohl visueller als auch textueller Daten zu erlangen. Dadurch benötigt unser Ansatz lediglich eine relativ kurze Trainingsdauer, um ein leistungsfähiges Captioning-Modell zu erzeugen. Ohne zusätzliche Annotationen oder zusätzliche Vortrainingsphase erzeugt es effizient sinnvolle Beschreibungen für große und vielfältige Datensätze. Überraschenderweise funktioniert unsere Methode bereits gut, wenn lediglich das Abbildungsnetzwerk trainiert wird, während sowohl CLIP als auch das Sprachmodell fixiert bleiben. Dies ermöglicht eine leichtere Architektur mit weniger trainierbaren Parametern. Durch quantitative Evaluation zeigen wir, dass unser Modell auf den anspruchsvollen Datensätzen Conceptual Captions und nocaps Ergebnisse erzielt, die mit den besten aktuellen Methoden vergleichbar sind, wobei es gleichzeitig einfacher, schneller und leichter ist. Unser Code ist unter https://github.com/rmokady/CLIP_prefix_caption verfügbar.