HyperAIHyperAI

Command Palette

Search for a command to run...

SimVLM: Einfaches Vortrainieren von visuellen Sprachmodellen mit schwacher Aufsicht

Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao

Zusammenfassung

Infolge der jüngsten Fortschritte bei der gemeinsamen Modellierung visueller und textueller Darstellungen hat die Vision-Language-Pretraining (VLP) bei vielen multimodalen Nachaufgaben beachtliche Leistungen erzielt. Allerdings beschränkt die Notwendigkeit teurer Annotationen – insbesondere sauberer Bildbeschreibungen und regionaler Etikettierungen – die Skalierbarkeit bestehender Ansätze und kompliziert den Pretraining-Prozess durch die Einführung mehrerer datenspezifischer Ziele. In dieser Arbeit lockern wir diese Einschränkungen und präsentieren einen minimalistischen Pretraining-Framework namens Simple Visual Language Model (SimVLM). Im Gegensatz zu früheren Ansätzen reduziert SimVLM die Trainingskomplexität durch Ausnutzung von großskaliger schwacher Aufsicht und wird end-to-end mit einem einzigen präfixbasierten Sprachmodellierungsziel trainiert. Ohne zusätzliche Daten oder aufgabe-spezifische Anpassungen übertrifft das resultierende Modell die bisherigen Pretraining-Methoden deutlich und erreicht neue State-of-the-Art-Ergebnisse auf einer Vielzahl diskriminativer und generativer Vision-Language-Benchmark-Aufgaben, darunter VQA (+3,74 % VQA-Score), NLVR2 (+1,17 % Genauigkeit), SNLI-VE (+1,37 % Genauigkeit) sowie Aufgaben zur Bildbeschreibung (+10,1 % durchschnittlicher CIDEr-Score). Darüber hinaus zeigen wir, dass SimVLM eine starke Generalisierungs- und Übertragungsfähigkeit erlangt, was zero-shot-Verhalten – einschließlich offener visueller Fragen und cross-modaler Übertragung – ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp