HyperAIHyperAI
vor 2 Monaten

VidCtx: Kontextsensitives Video-Frage-Antworten mit Bildmodellen

Andreas Goulas; Vasileios Mezaris; Ioannis Patras
VidCtx: Kontextsensitives Video-Frage-Antworten mit Bildmodellen
Abstract

Um die Rechen- und Speicherbeschränkungen großer multimodaler Modelle bei der Videofrage-Antwortaufgabe zu bewältigen, extrahieren mehrere neuere Methoden textuelle Darstellungen pro Bildausschnitt (z.B. durch Captioning) und geben sie an ein großes Sprachmodell (LLM), das diese verarbeitet, um die endgültige Antwort zu erzeugen. Allerdings hat das LLM auf diese Weise keinen Zugriff auf visuelle Informationen und muss oft wiederholte textuelle Beschreibungen benachbarter Bildausschnitte verarbeiten. Um diese Nachteile zu überwinden, stellen wir in diesem Artikel VidCtx vor, einen neuen, trainingsfreien VideoQA-Rahmen, der beide Modalitäten integriert, d.h. sowohl visuelle Informationen aus den Eingabebildausschnitten als auch textuelle Beschreibungen anderer Bildausschnitte, die den geeigneten Kontext liefern.Im vorgeschlagenen Rahmen wird ein vortrainiertes großes multimodales Modell (LMM) angewiesen, regelmäßig fragebezogene textuelle Beschreibungen (Captions) von Videobildausschnitten zu extrahieren. Diese werden als Kontext verwendet, wenn dasselbe LMM angewiesen wird, die aktuelle Frage zu beantworten, wobei es als Eingabe a) einen bestimmten Bildausschnitt, b) die Frage und c) den Kontext/Caption eines geeigneten Bildausschnitts erhält. Um redundante Informationen zu vermeiden, wurden als Kontext die Beschreibungen entfernter Bildausschnitte gewählt. Schließlich wird ein einfaches aber effektives Max-Pooling-Verfahren verwendet, um die Entscheidungen auf Bildausschnittsebene zusammenzufassen. Diese Methode ermöglicht es dem Modell, sich auf relevante Segmente des Videos zu konzentrieren und eine hohe Anzahl von Bildausschnitten zu skalieren.Experimente zeigen, dass VidCtx unter den Ansätzen, die auf offenen Modellen basieren, wettbewerbsfähige Leistungen auf drei öffentlichen Video-QA-Benchmarks erzielt: NExT-QA, IntentQA und STAR. Unser Code ist unter https://github.com/IDT-ITI/VidCtx verfügbar.

VidCtx: Kontextsensitives Video-Frage-Antworten mit Bildmodellen | Neueste Forschungsarbeiten | HyperAI