HyperAIHyperAI

Command Palette

Search for a command to run...

ViLBERT: Vortrainierte aufgabenunabhängige visiolinguistische Repräsentationen für Vision-und-Sprachaufgaben

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

Zusammenfassung

Wir präsentieren ViLBERT (Abkürzung für Vision-and-Language BERT), ein Modell zur Lernung von aufgabenunabhängigen gemeinsamen Repräsentationen von Bildinhalten und natürlicher Sprache. Wir erweitern die weit verbreitete BERT-Architektur zu einem mehrmodalen Zweiströmmodell, das sowohl visuelle als auch textbasierte Eingaben in getrennten Strömen verarbeitet, die durch ko-attentielle Transformer-Layer interagieren. Unser Modell wird durch zwei Proxy-Aufgaben auf dem großen, automatisch gesammelten Datensatz „Conceptual Captions“ vortrainiert und dann mit nur geringfügigen Anpassungen der Baseline-Architektur auf mehrere etablierte Vision-and-Language-Aufgaben übertragen – visuelle Fragebeantwortung, visuelles Common-Sense-Reasoning, referierende Ausdrücke und bildbasierte Bildsuche. Wir beobachten signifikante Verbesserungen bei den Aufgaben im Vergleich zu bestehenden aufgabenbezogenen Modellen – wobei wir den aktuellen Stand der Technik in allen vier Aufgaben erreichen. Unsere Arbeit markiert einen Paradigmenwechsel vom Lernen von Grundlagen zwischen Vision und Sprache ausschließlich im Rahmen der Aufgabentraining hin zu einer Behandlung des visuellen Grundlegendens als eine vortrainierbare und übertragbare Fähigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp