LXMERT: Lernen von Cross-Modality Encoder-Repräsentationen durch Transformer

Vision-und-Sprach-Reasoning erfordert ein Verständnis von visuellen Konzepten, Sprachsemantik und, vor allem, die Ausrichtung und Beziehungen zwischen diesen beiden Modalitäten. Wir schlagen daher das LXMERT-Framework (Learning Cross-Modality Encoder Representations from Transformers) vor, um diese Vision-und-Sprach-Verbindungen zu lernen. In LXMERT bauen wir ein groß angelegtes Transformer-Modell, das aus drei Encodern besteht: einem Objektbeziehungscoder, einem Sprachcoder und einem multimodalen Coder. Anschließend verleihen wir unserem Modell die Fähigkeit, visuelle und sprachliche Semantiken miteinander zu verbinden, indem wir es mit großen Mengen an Bild-Text-Paaren vortrainieren. Dies geschieht durch fünf verschiedene repräsentative Vortrainierungsaufgaben: Maskiertes Sprachmodellieren, maskierte Objektvorhersage (Feature-Regression und Label-Klassifikation), multimodale Zuordnung und Bildfragenbeantwortung. Diese Aufgaben helfen beim Lernen sowohl innerhalb der Modalitäten als auch zwischen den Modalitäten. Nach dem Feintuning mit unseren vortrainierten Parametern erreicht unser Modell state-of-the-art-Ergebnisse auf zwei Visual Question Answering-Datensätzen (nämlich VQA und GQA). Wir zeigen außerdem die Übertragbarkeit unseres vortrainierten multimodalen Modells, indem wir es für eine anspruchsvolle visuelle Reasoning-Aufgabe, NLVR2, anpassen und das bisher beste Ergebnis um 22 Prozentpunkte absolut verbessern (von 54 % auf 76 %). Schließlich führen wir detaillierte Abstraktionsstudien durch, um zu beweisen, dass sowohl unsere neuen Modulkomponenten als auch unsere Vortrainierungsstrategien wesentlich zu unseren starken Ergebnissen beitragen; wir präsentieren auch mehrere Aufmerksamkeitsvisualisierungen für die verschiedenen Encodern. Der Quellcode und die vortrainierten Modelle sind öffentlich unter folgender URL verfügbar: https://github.com/airsplay/lxmert