Semi-parametrische, video-basierte Textgenerierung

Effiziente Video-Sprache-Modellierung muss die Rechenkosten berücksichtigen, da Videos oft eine große, manchmal unüberwindbare Anzahl an Frame enthalten. Parametrische Ansätze wie die Aufmerksamkeitsmechanismen eignen sich möglicherweise nicht ideal, da ihre Rechenkosten quadratisch mit zunehmender Videolänge ansteigen. Stattdessen haben frühere Studien auf Offline-Feature-Extraktion oder Frame-Sampling zurückgegriffen, um Videos effizient darzustellen, wobei der Fokus auf der Kreuzmodalkomponente in kurzen Video-Ausschnitten lag. In diesem Artikel präsentieren wir ein semi-parametrisches, video-basiertes Textgenerierungsmodell namens SeViT, das eine neue Perspektive auf skalierbare Video-Sprache-Modellierung für lange, ungeschnittene Videos eröffnet. Indem ein Video als externer Datenspeicher betrachtet wird, integriert SeViT einen nicht-parametrischen Frame-Retriever, der für eine gegebene Anfrage nur wenige, anfrage-relevante Frames aus dem Datenspeicher auswählt, sowie einen parametrischen Generator, der diese Frames effektiv mit der Anfrage über späte Fusion verarbeitet. Experimentelle Ergebnisse zeigen, dass unsere Methode insbesondere bei längeren Videos und bei kausaler Video-Verständnis deutliche Vorteile bietet. Zudem erreicht unser Modell neue SOTA-Ergebnisse auf vier Video-Sprache-Datensätzen: iVQA (+4,8), Next-QA (+6,9), ActivityNet-QA (+4,8) in Bezug auf Genauigkeit und MSRVTT-Caption (+3,6) in Bezug auf CIDEr.