HyperAIHyperAI

Command Palette

Search for a command to run...

Frage-instruierte visuelle Beschreibungen für zero-shot Video-Frage-Antwort-Systeme

David Romero Thamar Solorio

Zusammenfassung

Wir präsentieren Q-ViD, einen einfachen Ansatz für die Video-Fragebeantwortung (Video QA), der sich im Gegensatz zu früheren Methoden, die auf komplexen Architekturen, rechenintensiven Pipelines oder geschlossenen Modellen wie GPTs basieren, auf ein einzelnes instruktionsfähiges, offenes Vision-Language-Modell (InstructBLIP) stützt, um VideoQA mithilfe von Frame-Beschreibungen zu lösen. Konkret erstellen wir Captioning-Instruktionen, die auf den Zielfragen zu den Videos basieren, und nutzen InstructBLIP, um für einzelne Videobilder relevante, task-spezifische Beschreibungen zu generieren. Anschließend bilden wir eine Gesamtbeschreibung des Videos unter Verwendung der frageabhängigen Frame-Beschreibungen und übergeben diese Information zusammen mit einer Frage-Antwort-Instruktion an ein großes Sprachmodell (LLM). Das LLM fungiert dabei als unser Schluss-Reasoning-Modul und führt den finalen Schritt der Multiple-Choice-Fragebeantwortung durch. Unser einfaches Q-ViD-Framework erreicht auf einer Vielzahl unterschiedlicher VideoQA-Benchmarks, darunter NExT-QA, STAR, How2QA, TVQA und IntentQA, Leistungen, die mit oder sogar über denen aktueller State-of-the-Art-Modelle liegen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp