HyperAIHyperAI
vor 2 Monaten

ViLBERT: Vortrainierte aufgabenunabhängige visiolinguistische Repräsentationen für Vision-und-Sprachaufgaben

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee
ViLBERT: Vortrainierte aufgabenunabhängige visiolinguistische Repräsentationen für Vision-und-Sprachaufgaben
Abstract

Wir präsentieren ViLBERT (Abkürzung für Vision-and-Language BERT), ein Modell zur Lernung von aufgabenunabhängigen gemeinsamen Repräsentationen von Bildinhalten und natürlicher Sprache. Wir erweitern die weit verbreitete BERT-Architektur zu einem mehrmodalen Zweiströmmodell, das sowohl visuelle als auch textbasierte Eingaben in getrennten Strömen verarbeitet, die durch ko-attentielle Transformer-Layer interagieren. Unser Modell wird durch zwei Proxy-Aufgaben auf dem großen, automatisch gesammelten Datensatz „Conceptual Captions“ vortrainiert und dann mit nur geringfügigen Anpassungen der Baseline-Architektur auf mehrere etablierte Vision-and-Language-Aufgaben übertragen – visuelle Fragebeantwortung, visuelles Common-Sense-Reasoning, referierende Ausdrücke und bildbasierte Bildsuche. Wir beobachten signifikante Verbesserungen bei den Aufgaben im Vergleich zu bestehenden aufgabenbezogenen Modellen – wobei wir den aktuellen Stand der Technik in allen vier Aufgaben erreichen. Unsere Arbeit markiert einen Paradigmenwechsel vom Lernen von Grundlagen zwischen Vision und Sprache ausschließlich im Rahmen der Aufgabentraining hin zu einer Behandlung des visuellen Grundlegendens als eine vortrainierbare und übertragbare Fähigkeit.