Selbstadaptives Sampling für effiziente Video-Frage-Antwort-Aufgaben auf Bild-Text-Modellen

Video-Frage-Antwort ist eine zentrale Aufgabe im Bereich des Video-Verständnisses. Obwohl aktuelle Vision-Sprache-Modelle (VLMs), die mit Video-Transformern ausgestattet sind, eine zeitliche Modellierung ermöglichen und hervorragende Ergebnisse erzielen, erfordern sie einen enormen Rechenaufwand und sind daher für den Einsatz in Echtzeitanwendungen zu kostspielig. Eine kostengünstige Alternative beschränkt sich darauf, nur eine geringe Anzahl von Frames auszuwählen, um den Hauptinhalt eines Videos zu repräsentieren, und passt ein Bild-Sprache-Modell an diesen ausgewählten Frames an. In jüngeren Modellen zur Video-Verarbeitung werden üblicherweise zufällig eine Reihe von Frames oder Clips ausgewählt, ohne Rücksicht auf die inneren visuellen Korrelationen zwischen ihnen oder ihre Relevanz für die jeweilige Frage. Wir argumentieren, dass eine solche ziellose Auswahl die Schlüsselbilder übersehen kann, aus denen die korrekte Antwort abgeleitet werden könnte, und dass sich dieses Problem verschärft, wenn die Auswahldichte sinkt – was bei zunehmender Video-Länge stets der Fall ist. Um dieses Problem zu mildern, schlagen wir zwei Frame-Auswahlstrategien vor: die „most domain frames“ (MDF) und die „most implied frames“ (MIF), die darauf abzielen, jene Frames maximal zu bewahren, die am wahrscheinlichsten für die gegebene Frage entscheidend sind. MDF minimiert passiv und in einem Bootstrap-Ansatz das Risiko der Auslassung von Schlüsselbildern, während MIF aktiv nach für jedes Video-Frage-Paar maßgeschneiderten Schlüsselbildern sucht, unterstützt durch Hilfsmodelle. Die experimentellen Ergebnisse auf drei öffentlichen Datensätzen, getestet mit drei fortschrittlichen VLMs (CLIP, GIT und All-in-one), zeigen, dass unsere vorgeschlagenen Strategien die Leistung von vortrainierten Bild-Sprache-Modellen signifikant steigern. Die Quellcodes zum in diesem Paper vorgestellten Verfahren sind öffentlich unter https://github.com/declare-lab/sas-vqa verfügbar.