MIST: Multi-modaler iterativer räumlich-zeitlicher Transformer für die Antwort auf Fragen zu langen Videosequenzen

Um Video-Frage-Antwort-Systeme (VideoQA) zu entwickeln, die Menschen im Alltag unterstützen können, ist es unerlässlich, aus langen Videos mit vielfältigen und komplexen Ereignissen Antworten zu gewinnen. Bestehende multimodale VQA-Modelle erzielen auf Bildern oder kurzen Videoclips vielversprechende Ergebnisse, insbesondere dank des jüngsten Erfolgs großer multimodaler Vortrainierungsansätze. Bei der Erweiterung dieser Methoden auf lange Videos ergeben sich jedoch neue Herausforderungen. Einerseits ist eine dichte Video-Sampling-Strategie rechnerisch prohibitiv. Andererseits leiden Methoden, die auf sparsamem Sampling basieren, in Szenarien, in denen visuelle Schlussfolgerungen über mehrere Ereignisse und unterschiedliche Granularitäten erforderlich sind. In dieser Arbeit stellen wir ein neues Modell namens Multi-modal Iterative Spatial-temporal Transformer (MIST) vor, das bestehende Vortrainierungsmodelle besser für die Anwendung in langen VideoQA-Szenarien anpasst. Konkret zerlegt MIST die traditionelle dichte räumlich-zeitliche Selbst-Attention in eine Kaskade aus Segment- und Regionenauswahlmodulen, die adaptiv jene Frames und Bildregionen auswählt, die eng mit der Frage verknüpft sind. Visuelle Konzepte auf unterschiedlichen Granularitäten werden anschließend effizient durch ein Aufmerksamkeitsmodul verarbeitet. Zudem führt MIST selektiv und aufmerksamkeitsbasiert über mehrere Schichten iterativ Auswahl- und Aufmerksamkeitsprozesse durch, um Schlussfolgerungen über mehrere Ereignisse zu ermöglichen. Die experimentellen Ergebnisse auf vier VideoQA-Datensätzen – AGQA, NExT-QA, STAR und Env-QA – zeigen, dass MIST eine state-of-the-art-Leistung erzielt und sich zudem durch hohe Rechen-effizienz und Interpretierbarkeit auszeichnet.