vor 11 Tagen

Wie viel kann CLIP den Aufgaben im Bereich Vision-and-Language nutzen?

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer

Abstract

Die meisten bestehenden Vision-and-Language-(V&L-)Modelle stützen sich auf vortrainierte visuelle Encoder und nutzen im Vergleich zu web-gescrapten Daten relativ kleine, manuell annotierte Datensätze, um die visuelle Welt wahrzunehmen. Es wurde jedoch beobachtet, dass eine großskalige Vortrainierung typischerweise zu einer besseren Generalisierung führt, beispielsweise zeigte CLIP (Contrastive Language-Image Pre-training), das auf einer riesigen Menge an Bild-Text-Paaren trainiert wurde, eine starke Zero-Shot-Fähigkeit bei verschiedenen visuellen Aufgaben. Um den Vorteil von CLIP weiter zu untersuchen, schlagen wir vor, CLIP als visuellen Encoder in verschiedenen V&L-Modellen in zwei typischen Szenarien einzusetzen: 1) das Einbetten von CLIP in eine aufgabenbezogene Feinabstimmung; 2) die Kombination von CLIP mit V&L-Vortrainierung und die Übertragung auf nachgeschaltete Aufgaben. Wir zeigen, dass CLIP signifikant besser abschneidet als weit verbreitete visuelle Encoder, die mit domänenspezifischen annotierten Daten trainiert wurden, wie beispielsweise Bottom-Up-Top-Down. Wir erzielen wettbewerbsfähige oder bessere Ergebnisse auf einer Vielzahl von V&L-Aufgaben und erreichen neue State-of-the-Art-Ergebnisse bei Visual Question Answering, Visual Entailment und V&L-Navigation. Wir stellen unseren Code unter https://github.com/clip-vil/CLIP-ViL zur Verfügung.