HyperAIHyperAI

Command Palette

Search for a command to run...

Einheitliche visuell-sprachliche Vortrainierung für Bildbeschreibung und VQA

Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao

Zusammenfassung

Diese Arbeit präsentiert ein einheitliches Vision-Language-Pre-training (VLP)-Modell. Das Modell ist einheitlich im Sinne von (1) der Fähigkeit, entweder für Aufgaben der Vision-Language-Generierung (z. B. Bildbeschreibung) oder der Vision-Language-Verständnis (z. B. visuelle Fragebeantwortung) fine-tuned zu werden, sowie (2) der Verwendung eines gemeinsamen mehrschichtigen Transformer-Netzwerks sowohl für die Codierung als auch die Dekodierung – im Gegensatz zu vielen bestehenden Ansätzen, bei denen Encoder und Decoder durch getrennte Modelle implementiert werden. Das einheitliche VLP-Modell wird auf einer großen Menge an Bild-Text-Paaren mittels unsupervisierter Lernziele zweier Aufgaben vortrainiert: bidirektionaler und sequenz-zu-Sequenz (seq2seq)-maskierter Vision-Language-Vorhersage. Die beiden Aufgaben unterscheiden sich lediglich darin, auf welchen Kontext die Vorhersage bedingt ist. Dies wird durch die Nutzung spezifischer Selbst-Attention-Masken für das gemeinsame Transformer-Netzwerk gesteuert. So weit uns bekannt ist, ist VLP das erste berichtete Modell, das sowohl auf Aufgaben der Vision-Language-Generierung als auch des Verständnisses – wie beispielsweise Bildbeschreibung und visuelle Fragebeantwortung – state-of-the-art-Ergebnisse auf drei anspruchsvollen Benchmark-Datensätzen erzielt: COCO Captions, Flickr30k Captions und VQA 2.0. Der Quellcode sowie die vortrainierten Modelle sind unter https://github.com/LuoweiZhou/VLP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp