HyperAIHyperAI

Command Palette

Search for a command to run...

Wie viel kann CLIP den Aufgaben im Bereich Vision-and-Language nutzen?

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

Zusammenfassung

Die meisten bestehenden Vision-and-Language-(V&L-)Modelle stützen sich auf vortrainierte visuelle Encoder und nutzen im Vergleich zu web-gescrapten Daten relativ kleine, manuell annotierte Datensätze, um die visuelle Welt wahrzunehmen. Es wurde jedoch beobachtet, dass eine großskalige Vortrainierung typischerweise zu einer besseren Generalisierung führt, beispielsweise zeigte CLIP (Contrastive Language-Image Pre-training), das auf einer riesigen Menge an Bild-Text-Paaren trainiert wurde, eine starke Zero-Shot-Fähigkeit bei verschiedenen visuellen Aufgaben. Um den Vorteil von CLIP weiter zu untersuchen, schlagen wir vor, CLIP als visuellen Encoder in verschiedenen V&L-Modellen in zwei typischen Szenarien einzusetzen: 1) das Einbetten von CLIP in eine aufgabenbezogene Feinabstimmung; 2) die Kombination von CLIP mit V&L-Vortrainierung und die Übertragung auf nachgeschaltete Aufgaben. Wir zeigen, dass CLIP signifikant besser abschneidet als weit verbreitete visuelle Encoder, die mit domänenspezifischen annotierten Daten trainiert wurden, wie beispielsweise Bottom-Up-Top-Down. Wir erzielen wettbewerbsfähige oder bessere Ergebnisse auf einer Vielzahl von V&L-Aufgaben und erreichen neue State-of-the-Art-Ergebnisse bei Visual Question Answering, Visual Entailment und V&L-Navigation. Wir stellen unseren Code unter https://github.com/clip-vil/CLIP-ViL zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp