HyperAIHyperAI

Command Palette

Search for a command to run...

LXMERT: Lernen von Cross-Modality Encoder-Repräsentationen durch Transformer

Hao Tan Mohit Bansal

Zusammenfassung

Vision-und-Sprach-Reasoning erfordert ein Verständnis von visuellen Konzepten, Sprachsemantik und, vor allem, die Ausrichtung und Beziehungen zwischen diesen beiden Modalitäten. Wir schlagen daher das LXMERT-Framework (Learning Cross-Modality Encoder Representations from Transformers) vor, um diese Vision-und-Sprach-Verbindungen zu lernen. In LXMERT bauen wir ein groß angelegtes Transformer-Modell, das aus drei Encodern besteht: einem Objektbeziehungscoder, einem Sprachcoder und einem multimodalen Coder. Anschließend verleihen wir unserem Modell die Fähigkeit, visuelle und sprachliche Semantiken miteinander zu verbinden, indem wir es mit großen Mengen an Bild-Text-Paaren vortrainieren. Dies geschieht durch fünf verschiedene repräsentative Vortrainierungsaufgaben: Maskiertes Sprachmodellieren, maskierte Objektvorhersage (Feature-Regression und Label-Klassifikation), multimodale Zuordnung und Bildfragenbeantwortung. Diese Aufgaben helfen beim Lernen sowohl innerhalb der Modalitäten als auch zwischen den Modalitäten. Nach dem Feintuning mit unseren vortrainierten Parametern erreicht unser Modell state-of-the-art-Ergebnisse auf zwei Visual Question Answering-Datensätzen (nämlich VQA und GQA). Wir zeigen außerdem die Übertragbarkeit unseres vortrainierten multimodalen Modells, indem wir es für eine anspruchsvolle visuelle Reasoning-Aufgabe, NLVR2, anpassen und das bisher beste Ergebnis um 22 Prozentpunkte absolut verbessern (von 54 % auf 76 %). Schließlich führen wir detaillierte Abstraktionsstudien durch, um zu beweisen, dass sowohl unsere neuen Modulkomponenten als auch unsere Vortrainierungsstrategien wesentlich zu unseren starken Ergebnissen beitragen; wir präsentieren auch mehrere Aufmerksamkeitsvisualisierungen für die verschiedenen Encodern. Der Quellcode und die vortrainierten Modelle sind öffentlich unter folgender URL verfügbar: https://github.com/airsplay/lxmert


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LXMERT: Lernen von Cross-Modality Encoder-Repräsentationen durch Transformer | Paper | HyperAI