HyperAIHyperAI

Command Palette

Search for a command to run...

Ausrichten vor Fusion: Visuelle und sprachliche Repräsentationslernen mit Momentum-Distillation

Junnan Li Ramprasaath R. Selvaraju Akhilesh D. Gotmare Shafiq Joty Caiming Xiong Steven C.H. Hoi

Zusammenfassung

Großformatiges Lernen von Vision- und Sprachrepräsentationen hat in verschiedenen Vision-Sprach-Aufgaben vielversprechende Verbesserungen gezeigt. Die meisten existierenden Methoden verwenden einen transformerbasierten multimodalen Encoder, um visuelle Tokens (regionsbasierte Bildmerkmale) und Wort-Tokens gemeinsam zu modellieren. Da die visuellen Tokens und die Wort-Tokens nicht ausgerichtet sind, ist es für den multimodalen Encoder herausfordernd, Interaktionen zwischen Bildern und Texten zu lernen. In diesem Artikel stellen wir eine kontrastive Verlustfunktion vor, um die Bild- und Textrepräsentationen vor der Verschmelzung (Fusion) durch kreuzmodale Aufmerksamkeit auszurichten (ALBEF). Im Gegensatz zu den meisten existierenden Methoden erfordert unser Ansatz weder Annotationen von Bounding Boxes noch hochaufgelöste Bilder. Um das Lernen aus verrauschten Webdaten zu verbessern, schlagen wir Momentum-Distillation vor, eine Selbsttrainingsmethode, die von Pseudo-Zielen lernt, die durch ein Momentum-Modell erzeugt werden. Wir liefern eine theoretische Analyse von ALBEF unter dem Aspekt der Maximierung der gegenseitigen Information, wobei gezeigt wird, dass verschiedene Trainingsaufgaben als unterschiedliche Methoden zur Erzeugung von Ansichten für ein Bild-Text-Paar interpretiert werden können. ALBEF erreicht den aktuellen Stand der Technik in mehreren nachgeschalteten Vision-Sprach-Aufgaben. Bei der Bild-Text-Retrieval übertrifft ALBEF Methoden, die auf Datensätzen vortrainiert wurden, die um Größenordnungen größer sind. Bei VQA (Visual Question Answering) und NLVR2^22 (Natural Language Visual Reasoning) erreicht ALBEF absolute Verbesserungen von 2,37 % und 3,84 % im Vergleich zum aktuellen Stand der Technik und zeichnet sich gleichzeitig durch eine schnellere Inferenzgeschwindigkeit aus. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/salesforce/ALBEF/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp