Wie viel kann CLIP den Aufgaben im Bereich Vision-and-Language nutzen?

Die meisten bestehenden Vision-and-Language-(V&L-)Modelle stützen sich auf vortrainierte visuelle Encoder und nutzen im Vergleich zu web-gescrapten Daten relativ kleine, manuell annotierte Datensätze, um die visuelle Welt wahrzunehmen. Es wurde jedoch beobachtet, dass eine großskalige Vortrainierung typischerweise zu einer besseren Generalisierung führt, beispielsweise zeigte CLIP (Contrastive Language-Image Pre-training), das auf einer riesigen Menge an Bild-Text-Paaren trainiert wurde, eine starke Zero-Shot-Fähigkeit bei verschiedenen visuellen Aufgaben. Um den Vorteil von CLIP weiter zu untersuchen, schlagen wir vor, CLIP als visuellen Encoder in verschiedenen V&L-Modellen in zwei typischen Szenarien einzusetzen: 1) das Einbetten von CLIP in eine aufgabenbezogene Feinabstimmung; 2) die Kombination von CLIP mit V&L-Vortrainierung und die Übertragung auf nachgeschaltete Aufgaben. Wir zeigen, dass CLIP signifikant besser abschneidet als weit verbreitete visuelle Encoder, die mit domänenspezifischen annotierten Daten trainiert wurden, wie beispielsweise Bottom-Up-Top-Down. Wir erzielen wettbewerbsfähige oder bessere Ergebnisse auf einer Vielzahl von V&L-Aufgaben und erreichen neue State-of-the-Art-Ergebnisse bei Visual Question Answering, Visual Entailment und V&L-Navigation. Wir stellen unseren Code unter https://github.com/clip-vil/CLIP-ViL zur Verfügung.