vor 7 Tagen

ViLA: Effiziente Video-Sprache-Ausrichtung für Video-Fragenbeantwortung

Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang

Abstract

In dieser Arbeit stellen wir ein effizientes Video-Sprache-Ausrichtungs-Netzwerk (ViLA) vor. Unser ViLA-Modell adressiert sowohl eine effiziente Frame-Auswahl als auch eine wirksame cross-modale Ausrichtung auf einheitliche Weise. In unserem ViLA-Netzwerk entwickeln wir einen neuen, lernbaren textgesteuerten Frame-Prompter sowie ein neues cross-modales Distanzierungsmodule (QFormer-Distiller). Vorgeladene große Bild-Sprache-Modelle haben vielversprechende Ergebnisse bei Aufgaben wie visueller Fragebeantwortung (VQA) gezeigt. Allerdings bleibt die effiziente und wirksame Auswahl von Videoframes bei der Anpassung solcher vorgeladener großer Bild-Sprache-Modelle an die Video-Sprache-Ausrichtung weiterhin eine zentrale Herausforderung. Im Vergleich zu vorherigen Ansätzen demonstriert unser ViLA-Modell die Fähigkeit, Schlüsselframes mit kritischen Inhalten zu selektieren, wodurch die Genauigkeit der Video-Sprache-Ausrichtung verbessert wird, während die Inferenzlatenz reduziert wird (+3,3 % auf NExT-QA Temporal bei 3,0-facher Beschleunigung). Insgesamt übertrifft unser ViLA-Netzwerk die derzeit besten Methoden auf Benchmark-Datenbanken für Video-Fragebeantwortung: +4,6 % auf STAR Interaction, +2,2 % auf STAR Durchschnitt bei 3,0-facher Beschleunigung; unsere 2-Frames erreichen eine bessere Leistung als SeViLA mit 4-Frames auf dem VLEP-Datensatz bei 4,2-facher Beschleunigung. Der Quellcode wird unter https://github.com/xijun-cs/ViLA verfügbar sein.