Frage-Antwort-Dichte von Videereignissen

Dieses Papier stellt eine neue Aufgabe namens Fragebeantwortung zu dichten Videoereignissen (dense video events) vor, die darauf abzielt, dichte Ereignisfragen in langen Videos zu beantworten und zu verorten. Dies stellt MLLMs (Multi-Modal Large Language Models) vor die Herausforderung, mehrere Ereignisse über längere Zeiträume hinweg treu zu verstehen und zu interpretieren. Um diese Studie zu erleichtern, haben wir DeVE-QA erstellt – einen Datensatz mit 78.000 Fragen zu 26.000 Ereignissen in 10.600 langen Videos. Unsere Benchmarks zeigen, dass state-of-the-art MLLMs bei der Bearbeitung von DeVE-QA Schwierigkeiten haben. Zur Verbesserung schlagen wir DeVi vor, einen neuen anspruchsfreien Ansatz für MLLMs, der drei Module hervorhebt: ein hierarchisches Beschriftungsmodul (hierarchical captioning module), ein zeitliches Ereignisgedächtnismodul (temporal event memory module) und ein Modul zur Selbstkonsistenzprüfung (self-consistency checking module). Diese Module dienen jeweils der Erkennung, Kontextualisierung und Speicherung sowie der Verortung von dichten Ereignissen in langen Videos für die Fragebeantwortung. Ausführliche Experimente zeigen, dass DeVi bei der Beantwortung von dichten Ereignisfragen und dem Verorten relevanter Videomomente überlegen ist. Im Vergleich zu bestehenden MLLMs erreicht es eine bemerkenswerte Steigerung um 4,8 % und 2,1 % in der G(round)QA-Akkuratesse auf DeVE-QA und NExT-GQA, beziehungsweise. Daten und Code sind unter https://github.com/QHUni/DeVE-QA verfügbar.