HyperAIHyperAI
vor 17 Tagen

MoReVQA: Untersuchung modularer Schlussfolgerungsmodelle für die Video-Fragebeantwortung

Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid
MoReVQA: Untersuchung modularer Schlussfolgerungsmodelle für die Video-Fragebeantwortung
Abstract

Diese Arbeit behandelt die Aufgabe des Videofragenbeantwortens (VideoQA) mittels eines zerlegten, mehrstufigen, modularen Schlussfolgerungsrahmens. Bisherige modulare Ansätze haben zwar mit einer einzelnen Planungsstufe, die nicht an visuelle Inhalte gebunden ist, vielversprechende Ergebnisse erzielt. Durch eine einfache und effektive Baseline zeigen wir jedoch, dass solche Systeme in anspruchsvollen VideoQA-Szenarien zu brüchigem Verhalten führen können. Im Gegensatz zu traditionellen einstufigen Planungsansätzen schlagen wir daher ein mehrstufiges System vor, das aus einem Ereignisparser, einer Verankerungsstufe und einer abschließenden Schlussfolgerungsstufe in Verbindung mit einem externen Gedächtnis besteht. Alle Stufen sind trainingsfrei und werden mittels Few-Shot-Prompting großer Modelle durchgeführt, wodurch interpretierbare Zwischenausgaben in jeder Stufe entstehen. Durch die Zerlegung der zugrundeliegenden Planungs- und Aufgabenkomplexität erreicht unsere Methode, MoReVQA, im Vergleich zu vorherigen Ansätzen state-of-the-art Ergebnisse auf etablierten VideoQA-Benchmark-Datensätzen (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) und zeigt zudem gute Erweiterbarkeit auf verwandte Aufgaben (verankertes VideoQA, Paragraphenbeschreibung).

MoReVQA: Untersuchung modularer Schlussfolgerungsmodelle für die Video-Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI