HyperAIHyperAI
vor 11 Tagen

SimVLM: Einfaches Vortrainieren von visuellen Sprachmodellen mit schwacher Aufsicht

Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao
SimVLM: Einfaches Vortrainieren von visuellen Sprachmodellen mit schwacher Aufsicht
Abstract

Infolge der jüngsten Fortschritte bei der gemeinsamen Modellierung visueller und textueller Darstellungen hat die Vision-Language-Pretraining (VLP) bei vielen multimodalen Nachaufgaben beachtliche Leistungen erzielt. Allerdings beschränkt die Notwendigkeit teurer Annotationen – insbesondere sauberer Bildbeschreibungen und regionaler Etikettierungen – die Skalierbarkeit bestehender Ansätze und kompliziert den Pretraining-Prozess durch die Einführung mehrerer datenspezifischer Ziele. In dieser Arbeit lockern wir diese Einschränkungen und präsentieren einen minimalistischen Pretraining-Framework namens Simple Visual Language Model (SimVLM). Im Gegensatz zu früheren Ansätzen reduziert SimVLM die Trainingskomplexität durch Ausnutzung von großskaliger schwacher Aufsicht und wird end-to-end mit einem einzigen präfixbasierten Sprachmodellierungsziel trainiert. Ohne zusätzliche Daten oder aufgabe-spezifische Anpassungen übertrifft das resultierende Modell die bisherigen Pretraining-Methoden deutlich und erreicht neue State-of-the-Art-Ergebnisse auf einer Vielzahl diskriminativer und generativer Vision-Language-Benchmark-Aufgaben, darunter VQA (+3,74 % VQA-Score), NLVR2 (+1,17 % Genauigkeit), SNLI-VE (+1,37 % Genauigkeit) sowie Aufgaben zur Bildbeschreibung (+10,1 % durchschnittlicher CIDEr-Score). Darüber hinaus zeigen wir, dass SimVLM eine starke Generalisierungs- und Übertragungsfähigkeit erlangt, was zero-shot-Verhalten – einschließlich offener visueller Fragen und cross-modaler Übertragung – ermöglicht.

SimVLM: Einfaches Vortrainieren von visuellen Sprachmodellen mit schwacher Aufsicht | Neueste Forschungsarbeiten | HyperAI