vor 11 Tagen

SimVLM: Einfaches Vortrainieren von visuellen Sprachmodellen mit schwacher Aufsicht

Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao

Abstract

Infolge der jüngsten Fortschritte bei der gemeinsamen Modellierung visueller und textueller Darstellungen hat die Vision-Language-Pretraining (VLP) bei vielen multimodalen Nachaufgaben beachtliche Leistungen erzielt. Allerdings beschränkt die Notwendigkeit teurer Annotationen – insbesondere sauberer Bildbeschreibungen und regionaler Etikettierungen – die Skalierbarkeit bestehender Ansätze und kompliziert den Pretraining-Prozess durch die Einführung mehrerer datenspezifischer Ziele. In dieser Arbeit lockern wir diese Einschränkungen und präsentieren einen minimalistischen Pretraining-Framework namens Simple Visual Language Model (SimVLM). Im Gegensatz zu früheren Ansätzen reduziert SimVLM die Trainingskomplexität durch Ausnutzung von großskaliger schwacher Aufsicht und wird end-to-end mit einem einzigen präfixbasierten Sprachmodellierungsziel trainiert. Ohne zusätzliche Daten oder aufgabe-spezifische Anpassungen übertrifft das resultierende Modell die bisherigen Pretraining-Methoden deutlich und erreicht neue State-of-the-Art-Ergebnisse auf einer Vielzahl diskriminativer und generativer Vision-Language-Benchmark-Aufgaben, darunter VQA (+3,74 % VQA-Score), NLVR2 (+1,17 % Genauigkeit), SNLI-VE (+1,37 % Genauigkeit) sowie Aufgaben zur Bildbeschreibung (+10,1 % durchschnittlicher CIDEr-Score). Darüber hinaus zeigen wir, dass SimVLM eine starke Generalisierungs- und Übertragungsfähigkeit erlangt, was zero-shot-Verhalten – einschließlich offener visueller Fragen und cross-modaler Übertragung – ermöglicht.