HyperAIHyperAI

Command Palette

Search for a command to run...

ViLA: Effiziente Video-Sprache-Ausrichtung für Video-Fragenbeantwortung

Xijun Wang Junbang Liang Chun-Kai Wang Kenan Deng Yu Lou Ming Lin Shan Yang

Zusammenfassung

In dieser Arbeit stellen wir ein effizientes Video-Sprache-Ausrichtungs-Netzwerk (ViLA) vor. Unser ViLA-Modell adressiert sowohl eine effiziente Frame-Auswahl als auch eine wirksame cross-modale Ausrichtung auf einheitliche Weise. In unserem ViLA-Netzwerk entwickeln wir einen neuen, lernbaren textgesteuerten Frame-Prompter sowie ein neues cross-modales Distanzierungsmodule (QFormer-Distiller). Vorgeladene große Bild-Sprache-Modelle haben vielversprechende Ergebnisse bei Aufgaben wie visueller Fragebeantwortung (VQA) gezeigt. Allerdings bleibt die effiziente und wirksame Auswahl von Videoframes bei der Anpassung solcher vorgeladener großer Bild-Sprache-Modelle an die Video-Sprache-Ausrichtung weiterhin eine zentrale Herausforderung. Im Vergleich zu vorherigen Ansätzen demonstriert unser ViLA-Modell die Fähigkeit, Schlüsselframes mit kritischen Inhalten zu selektieren, wodurch die Genauigkeit der Video-Sprache-Ausrichtung verbessert wird, während die Inferenzlatenz reduziert wird (+3,3 % auf NExT-QA Temporal bei 3,0-facher Beschleunigung). Insgesamt übertrifft unser ViLA-Netzwerk die derzeit besten Methoden auf Benchmark-Datenbanken für Video-Fragebeantwortung: +4,6 % auf STAR Interaction, +2,2 % auf STAR Durchschnitt bei 3,0-facher Beschleunigung; unsere 2-Frames erreichen eine bessere Leistung als SeViLA mit 4-Frames auf dem VLEP-Datensatz bei 4,2-facher Beschleunigung. Der Quellcode wird unter https://github.com/xijun-cs/ViLA verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp