HyperAIHyperAI
vor 2 Monaten

Ausrichten vor Fusion: Visuelle und sprachliche Repräsentationslernen mit Momentum-Distillation

Junnan Li; Ramprasaath R. Selvaraju; Akhilesh Deepak Gotmare; Shafiq Joty; Caiming Xiong; Steven Hoi
Ausrichten vor Fusion: Visuelle und sprachliche Repräsentationslernen mit Momentum-Distillation
Abstract

Großformatiges Lernen von Vision- und Sprachrepräsentationen hat in verschiedenen Vision-Sprach-Aufgaben vielversprechende Verbesserungen gezeigt. Die meisten existierenden Methoden verwenden einen transformerbasierten multimodalen Encoder, um visuelle Tokens (regionsbasierte Bildmerkmale) und Wort-Tokens gemeinsam zu modellieren. Da die visuellen Tokens und die Wort-Tokens nicht ausgerichtet sind, ist es für den multimodalen Encoder herausfordernd, Interaktionen zwischen Bildern und Texten zu lernen. In diesem Artikel stellen wir eine kontrastive Verlustfunktion vor, um die Bild- und Textrepräsentationen vor der Verschmelzung (Fusion) durch kreuzmodale Aufmerksamkeit auszurichten (ALBEF). Im Gegensatz zu den meisten existierenden Methoden erfordert unser Ansatz weder Annotationen von Bounding Boxes noch hochaufgelöste Bilder. Um das Lernen aus verrauschten Webdaten zu verbessern, schlagen wir Momentum-Distillation vor, eine Selbsttrainingsmethode, die von Pseudo-Zielen lernt, die durch ein Momentum-Modell erzeugt werden. Wir liefern eine theoretische Analyse von ALBEF unter dem Aspekt der Maximierung der gegenseitigen Information, wobei gezeigt wird, dass verschiedene Trainingsaufgaben als unterschiedliche Methoden zur Erzeugung von Ansichten für ein Bild-Text-Paar interpretiert werden können. ALBEF erreicht den aktuellen Stand der Technik in mehreren nachgeschalteten Vision-Sprach-Aufgaben. Bei der Bild-Text-Retrieval übertrifft ALBEF Methoden, die auf Datensätzen vortrainiert wurden, die um Größenordnungen größer sind. Bei VQA (Visual Question Answering) und NLVR$^2$ (Natural Language Visual Reasoning) erreicht ALBEF absolute Verbesserungen von 2,37 % und 3,84 % im Vergleich zum aktuellen Stand der Technik und zeichnet sich gleichzeitig durch eine schnellere Inferenzgeschwindigkeit aus. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/salesforce/ALBEF/ verfügbar.

Ausrichten vor Fusion: Visuelle und sprachliche Repräsentationslernen mit Momentum-Distillation | Neueste Forschungsarbeiten | HyperAI