Aus dem Kasten schauen: End-to-End-Vorstufe für die Vision-Sprache-Repräsentationslernung

Wir untersuchen die gemeinsame Lernung von Convolutional Neural Networks (CNN) und Transformers für Vision-Language-Pre-Training (VLPT), das darauf abzielt, durch Millionen von Bild-Text-Paaren Quermodale Alignment zu erlernen. Moderne Ansätze extrahieren auffällige Bildregionen und alignen diese schrittweise mit Wörtern. Da regionenbasierte visuelle Merkmale in der Regel Teile eines Bildes repräsentieren, ist es für bestehende Vision-Language-Modelle herausfordernd, die Semantik aus gepaarten natürlichen Sprachbeschreibungen vollständig zu erfassen. In diesem Artikel stellen wir SOHO vor, das „See Out of tHe bOx“ bedeutet und ein gesamtes Bild als Eingabe nimmt und gleichzeitig vision-sprachliche Repräsentationen end-to-end lernt. SOHO benötigt keine Bounding-Box-Anmerkungen und ermöglicht dadurch eine Inferenz, die zehnmal schneller ist als bei regionenbasierten Ansätzen. Insbesondere lernt SOHO durch einen visuellen Wörterbuch (Visual Dictionary, VD) umfassende, aber kompakte Bildmerkmale zu extrahieren, was die Quermodale Verständnis fördert. Der VD ist so entworfen, konsistente visuelle Abstraktionen ähnlicher Semantik darzustellen. Er wird dynamisch aktualisiert und in unserer vorgeschlagenen Pre-Training-Aufgabe Masked Visual Modeling (MVM) genutzt. Wir führen Experimente auf vier etablierten Vision-Language-Aufgaben unter Verwendung standardisierter VLPT-Einstellungen durch. Insbesondere erreicht SOHO absolute Verbesserungen von 2,0 % im R@1-Score beim Text-Abfrage-Testsplit MSCOCO 5k, 1,5 % Genauigkeit beim NLVR$^2$ Test-P-Split und 6,7 % Genauigkeit beim SNLI-VE-Testsplit.