HyperAIHyperAI

Command Palette

Search for a command to run...

UNITER: UNiverselle Bild-Text-Darstellungslernen

Yen-Chun Chen* Linjie Li* Licheng Yu* Ahmed El Kholy Faisal Ahmed Zhe Gan Yu Cheng Jingjing Liu

Zusammenfassung

Gemeinsame Bild-Text-Verkettung bildet die Grundlage für die meisten Vision-and-Language (V+L)-Aufgaben, bei denen multimodale Eingaben gleichzeitig verarbeitet werden, um sowohl visuelles als auch textuelles Verständnis zu erreichen. In dieser Arbeit stellen wir UNITER vor, eine universelle Bild-Text-Darstellung, die durch groß angelegtes Vortraining über vier Bild-Text-Datensätze (COCO, Visual Genome, Conceptual Captions und SBU Captions) gelernt wurde und die heterogene nachgeschaltete V+L-Aufgaben mit gemeinsamen multimodalen Darstellungen versorgen kann. Wir entwerfen vier Vortraining-Aufgaben: Maskierte Sprachmodellierung (Masked Language Modeling, MLM), maskierte Regionenmodellierung (Masked Region Modeling, MRM – mit drei Varianten), Bild-Text-Zuordnung (Image-Text Matching, ITM) und Wort-Regionen-Zuordnung (Word-Region Alignment, WRA).Im Gegensatz zu früheren Arbeiten, die zufälliges gemeinsames Maskieren in beiden Modalitäten anwenden, verwenden wir bedingtes Maskieren bei den Vortraining-Aufgaben (d.h., maskierte Sprach-/Regionenmodellierung ist auf vollständige Beobachtung von Bildern/Texten konditioniert). Neben der globalen Bild-Text-Zuordnung durch ITM schlagen wir WRA mittels Optimaler Transporttheorie (Optimal Transport, OT) vor, um während des Vortrainings explizit eine feingranulare Zuordnung zwischen Wörtern und Bildregionen zu fördern. Eine umfassende Analyse zeigt, dass sowohl bedingtes Maskieren als auch OT-basierte WRA das Vortraining verbessern. Zudem führen wir eine gründliche Abstraktionsstudie durch, um eine optimale Kombination von Vortraining-Aufgaben zu finden.Ausführliche Experimente zeigen, dass UNITER neuen Stand der Technik in sechs V+L-Aufgaben erreicht (über neun Datensätze), darunter Visuelle Fragebeantwortung (Visual Question Answering), Bild-Text-Retrieval, Verstehen von referierenden Ausdrücken (Referring Expression Comprehension), visuelle Alltagsverstandesfähigkeit (Visual Commonsense Reasoning), visuelle Implikation (Visual Entailment) und NLVR2^22. Der Quellcode ist unter https://github.com/ChenRocks/UNITER verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UNITER: UNiverselle Bild-Text-Darstellungslernen | Paper | HyperAI