Blick und Fokus: Memory Prompting für die Video-Fragenbeantwortung zu mehreren Ereignissen

Video Question Answering (VideoQA) ist zu einem wesentlichen Werkzeug geworden, um die Fähigkeit von Agenten zur Verständnis menschlicher Alltagsverhaltens zu bewerten. Trotz der jüngsten Erfolge großer multimodaler Sprach-Vision-Modelle bei zahlreichen Aufgaben bleibt die komplexen Situationen betreffende Schlussfolgerung über Videos, die mehrere mensch-objekt-Interaktionsereignisse beinhalten, weiterhin herausfordernd. Im Gegensatz dazu können Menschen diese Aufgaben leicht bewältigen, indem sie eine Reihe episodischer Erinnerungen als Anker nutzen, um schnell die für die Frage relevanten Schlüsselmomente zur Schlussfolgerung zu identifizieren. Um diese effektive Schlussfolgerungsstrategie nachzuahmen, schlagen wir das Glance-Focus-Modell vor. Eine einfache Möglichkeit besteht darin, ein Aktionsdetektionsmodell einzusetzen, um eine Reihe von Aktionen als Schlüsselerinnerungen vorherzusagen. Diese Aktionen, die auf einer festen Vokabelliste basieren, sind jedoch schwer verallgemeinerbar auf verschiedene Video-Domänen. Stattdessen trainieren wir ein Encoder-Decoder-Modell, um eine Menge dynamischer Ereignis-Erinnerungen im Glance-Stadium zu generieren. Neben der Verwendung überwachter bipartiter Zuordnung zur Gewinnung der Ereignis-Erinnerungen entwickeln wir zudem eine unsupervisierte Methode zur Erinnerungsgenerierung, um von der Abhängigkeit von Ereignisannotierungen unabhängig zu werden. Im anschließenden Fokus-Stadium fungieren diese Ereignis-Erinnerungen als Brücke, um die Korrelation zwischen Fragen, die hochlevel-ereignisbasierte Konzepte enthalten, und der tieflevel-umfassenden Videoinhalte herzustellen. Gegeben eine Frage konzentriert sich das Modell zunächst auf die generierten Schlüsselereignis-Erinnerungen und anschließend über unseren entworfenen mehrstufigen Kreuz-Attention-Mechanismus auf das jeweils relevanteste Moment zur Schlussfolgerung. Wir führen umfangreiche Experimente auf vier Multi-Event VideoQA-Benchmark-Datensätzen durch, darunter STAR, EgoTaskQA, AGQA und NExT-QA. Unser vorgeschlagenes Modell erreicht state-of-the-art-Ergebnisse und übertrifft in verschiedenen anspruchsvollen Schlussfolgerungsaufgaben aktuelle große Modelle. Der Quellcode und die Modelle sind unter https://github.com/ByZ0e/Glance-Focus verfügbar.