HyperAIHyperAI

Command Palette

Search for a command to run...

VidCtx: Kontextsensitives Video-Frage-Antworten mit Bildmodellen

Andreas Goulas Vasileios Mezaris Ioannis Patras

Zusammenfassung

Um die Rechen- und Speicherbeschränkungen großer multimodaler Modelle bei der Videofrage-Antwortaufgabe zu bewältigen, extrahieren mehrere neuere Methoden textuelle Darstellungen pro Bildausschnitt (z.B. durch Captioning) und geben sie an ein großes Sprachmodell (LLM), das diese verarbeitet, um die endgültige Antwort zu erzeugen. Allerdings hat das LLM auf diese Weise keinen Zugriff auf visuelle Informationen und muss oft wiederholte textuelle Beschreibungen benachbarter Bildausschnitte verarbeiten. Um diese Nachteile zu überwinden, stellen wir in diesem Artikel VidCtx vor, einen neuen, trainingsfreien VideoQA-Rahmen, der beide Modalitäten integriert, d.h. sowohl visuelle Informationen aus den Eingabebildausschnitten als auch textuelle Beschreibungen anderer Bildausschnitte, die den geeigneten Kontext liefern.Im vorgeschlagenen Rahmen wird ein vortrainiertes großes multimodales Modell (LMM) angewiesen, regelmäßig fragebezogene textuelle Beschreibungen (Captions) von Videobildausschnitten zu extrahieren. Diese werden als Kontext verwendet, wenn dasselbe LMM angewiesen wird, die aktuelle Frage zu beantworten, wobei es als Eingabe a) einen bestimmten Bildausschnitt, b) die Frage und c) den Kontext/Caption eines geeigneten Bildausschnitts erhält. Um redundante Informationen zu vermeiden, wurden als Kontext die Beschreibungen entfernter Bildausschnitte gewählt. Schließlich wird ein einfaches aber effektives Max-Pooling-Verfahren verwendet, um die Entscheidungen auf Bildausschnittsebene zusammenzufassen. Diese Methode ermöglicht es dem Modell, sich auf relevante Segmente des Videos zu konzentrieren und eine hohe Anzahl von Bildausschnitten zu skalieren.Experimente zeigen, dass VidCtx unter den Ansätzen, die auf offenen Modellen basieren, wettbewerbsfähige Leistungen auf drei öffentlichen Video-QA-Benchmarks erzielt: NExT-QA, IntentQA und STAR. Unser Code ist unter https://github.com/IDT-ITI/VidCtx verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VidCtx: Kontextsensitives Video-Frage-Antworten mit Bildmodellen | Paper | HyperAI