vor 2 Monaten

UNITER: UNiverselle Bild-Text-Darstellungslernen

Yen-Chun Chen; Linjie Li; Licheng Yu; Ahmed El Kholy; Faisal Ahmed; Zhe Gan; Yu Cheng; Jingjing Liu

Abstract

Gemeinsame Bild-Text-Verkettung bildet die Grundlage für die meisten Vision-and-Language (V+L)-Aufgaben, bei denen multimodale Eingaben gleichzeitig verarbeitet werden, um sowohl visuelles als auch textuelles Verständnis zu erreichen. In dieser Arbeit stellen wir UNITER vor, eine universelle Bild-Text-Darstellung, die durch groß angelegtes Vortraining über vier Bild-Text-Datensätze (COCO, Visual Genome, Conceptual Captions und SBU Captions) gelernt wurde und die heterogene nachgeschaltete V+L-Aufgaben mit gemeinsamen multimodalen Darstellungen versorgen kann. Wir entwerfen vier Vortraining-Aufgaben: Maskierte Sprachmodellierung (Masked Language Modeling, MLM), maskierte Regionenmodellierung (Masked Region Modeling, MRM – mit drei Varianten), Bild-Text-Zuordnung (Image-Text Matching, ITM) und Wort-Regionen-Zuordnung (Word-Region Alignment, WRA).Im Gegensatz zu früheren Arbeiten, die zufälliges gemeinsames Maskieren in beiden Modalitäten anwenden, verwenden wir bedingtes Maskieren bei den Vortraining-Aufgaben (d.h., maskierte Sprach-/Regionenmodellierung ist auf vollständige Beobachtung von Bildern/Texten konditioniert). Neben der globalen Bild-Text-Zuordnung durch ITM schlagen wir WRA mittels Optimaler Transporttheorie (Optimal Transport, OT) vor, um während des Vortrainings explizit eine feingranulare Zuordnung zwischen Wörtern und Bildregionen zu fördern. Eine umfassende Analyse zeigt, dass sowohl bedingtes Maskieren als auch OT-basierte WRA das Vortraining verbessern. Zudem führen wir eine gründliche Abstraktionsstudie durch, um eine optimale Kombination von Vortraining-Aufgaben zu finden.Ausführliche Experimente zeigen, dass UNITER neuen Stand der Technik in sechs V+L-Aufgaben erreicht (über neun Datensätze), darunter Visuelle Fragebeantwortung (Visual Question Answering), Bild-Text-Retrieval, Verstehen von referierenden Ausdrücken (Referring Expression Comprehension), visuelle Alltagsverstandesfähigkeit (Visual Commonsense Reasoning), visuelle Implikation (Visual Entailment) und NLVR$^2$. Der Quellcode ist unter https://github.com/ChenRocks/UNITER verfügbar.