OmniVL: Ein Grundmodell für Bild-Sprache- und Video-Sprache-Aufgaben

Diese Arbeit präsentiert OmniVL, ein neues Fundamentmodell zur Unterstützung sowohl von Bild-Sprache- als auch von Video-Sprache-Aufgaben mittels einer universellen Architektur. Es verwendet einen einheitlichen, auf Transformers basierenden visuellen Encoder sowohl für Bild- als auch für Videoeingaben und ermöglicht somit eine gemeinsame Vortrainierung von Bild-Sprache- und Video-Sprache-Modellen. Erstmals zeigen wir, dass ein solcher Paradigma sowohl für Bild- als auch für Video-Aufgaben von Vorteil ist, im Gegensatz zum herkömmlichen einseitigen Transfer (z. B. Nutzung von Bild-Sprache-Modellen zur Verbesserung von Video-Sprache-Aufgaben). Dazu schlagen wir eine entkoppelte gemeinsame Vortrainierung von Bild-Sprache- und Video-Sprache-Modellen vor, um die visuelle Sprachmodellierung effektiv in räumliche und zeitliche Dimensionen zu zerlegen und eine Leistungssteigerung sowohl bei Bild- als auch bei Video-Aufgaben zu erzielen. Darüber hinaus führen wir eine neuartige einheitliche vision-sprachliche Gegensatzverlustfunktion (UniVLC) ein, die Bild-Text-, Video-Text-, Bild-Label- (z. B. Bildklassifikation) und Video-Label-Daten (z. B. Aktionserkennung im Video) gemeinsam nutzt, sodass sowohl überwachte als auch verrauschte überwachte Vortrainingsdaten möglichst effizient genutzt werden können. Ohne zusätzliche, auf spezifische Aufgaben zugeschnittene Adapter kann OmniVL gleichzeitig visuelle Einzelmodell-Aufgaben (z. B. Bildklassifikation, Aktionserkennung im Video), multimodale Ausrichtungsaufgaben (z. B. Bild-/Video-Text-Abfrage) sowie multimodale Verständnis- und Generierungsaufgaben (z. B. Bild-/Video-Fragenbeantwortung, Captioning) unterstützen. Wir evaluieren OmniVL an einer Vielzahl von Nachfolgeaufgaben und erreichen state-of-the-art oder wettbewerbsfähige Ergebnisse bei vergleichbarer Modellgröße und Datenskala.