VicTR: Video-bedingte Textrepräsentationen für Aktivitätserkennung

Vision-Language-Modelle (VLMs) haben sich im Bereich der Bilder – insbesondere in Null-Shot-Szenarien – dank der Verfügbarkeit großer Mengen an Vortrainingsdaten (d.h., paarweise abgestimmte Bild-Text-Stichproben) ausgezeichnet. Für Videos ist jedoch solche gepaarte Daten nicht so häufig verfügbar. Daher werden Video-VLMs in der Regel durch Anpassung vortrainierter Bild-VLMs an den Video-Bereich entwickelt, anstatt von Grund auf neu trainiert zu werden. Alle diese Ansätze basieren darauf, visuelle Einbettungen mit zeitlicher Information zu erweitern (d.h., Bild $\rightarrow$ Video), wobei oft die Text-Einbettungen unverändert bleiben oder sogar verworfen werden. In dieser Arbeit argumentieren wir dagegen und behaupten, dass bessere Video-VLMs durch stärkeres Fokus auf die Erweiterung des Textes als auf visuelle Informationen gestaltet werden können. Genauer gesagt führen wir Video-bedingte Textrepräsentationen (VicTR) ein: eine Form von Text-Einbettungen, die im Verhältnis zu visuellen Einbettungen optimiert sind und einen flexibleren kontrastiven latente Raum schaffen. Unser Modell kann zudem frei verfügbare semantische Informationen nutzen, in Form von visuell begründeten Hilfstexten (z.B. Objekt- oder Szeneninformationen). Wir evaluieren unser Modell anhand verschiedener Benchmarks für Aktivitätserkennung: Few-Shot-, Null-Shot- (HMDB-51, UCF-101), Kurzform- (Kinetics-400) und Langform-Szenarien (Charades), wobei es unter den Video-VLMs starke Leistungen zeigt.