HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstadaptives Sampling für effiziente Video-Frage-Antwort-Aufgaben auf Bild-Text-Modellen

Wei Han Hui Chen Min-Yen Kan Soujanya Poria

Zusammenfassung

Video-Frage-Antwort ist eine zentrale Aufgabe im Bereich des Video-Verständnisses. Obwohl aktuelle Vision-Sprache-Modelle (VLMs), die mit Video-Transformern ausgestattet sind, eine zeitliche Modellierung ermöglichen und hervorragende Ergebnisse erzielen, erfordern sie einen enormen Rechenaufwand und sind daher für den Einsatz in Echtzeitanwendungen zu kostspielig. Eine kostengünstige Alternative beschränkt sich darauf, nur eine geringe Anzahl von Frames auszuwählen, um den Hauptinhalt eines Videos zu repräsentieren, und passt ein Bild-Sprache-Modell an diesen ausgewählten Frames an. In jüngeren Modellen zur Video-Verarbeitung werden üblicherweise zufällig eine Reihe von Frames oder Clips ausgewählt, ohne Rücksicht auf die inneren visuellen Korrelationen zwischen ihnen oder ihre Relevanz für die jeweilige Frage. Wir argumentieren, dass eine solche ziellose Auswahl die Schlüsselbilder übersehen kann, aus denen die korrekte Antwort abgeleitet werden könnte, und dass sich dieses Problem verschärft, wenn die Auswahldichte sinkt – was bei zunehmender Video-Länge stets der Fall ist. Um dieses Problem zu mildern, schlagen wir zwei Frame-Auswahlstrategien vor: die „most domain frames“ (MDF) und die „most implied frames“ (MIF), die darauf abzielen, jene Frames maximal zu bewahren, die am wahrscheinlichsten für die gegebene Frage entscheidend sind. MDF minimiert passiv und in einem Bootstrap-Ansatz das Risiko der Auslassung von Schlüsselbildern, während MIF aktiv nach für jedes Video-Frage-Paar maßgeschneiderten Schlüsselbildern sucht, unterstützt durch Hilfsmodelle. Die experimentellen Ergebnisse auf drei öffentlichen Datensätzen, getestet mit drei fortschrittlichen VLMs (CLIP, GIT und All-in-one), zeigen, dass unsere vorgeschlagenen Strategien die Leistung von vortrainierten Bild-Sprache-Modellen signifikant steigern. Die Quellcodes zum in diesem Paper vorgestellten Verfahren sind öffentlich unter https://github.com/declare-lab/sas-vqa verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstadaptives Sampling für effiziente Video-Frage-Antwort-Aufgaben auf Bild-Text-Modellen | Paper | HyperAI