HyperAIHyperAI

Command Palette

Search for a command to run...

Frage-Antwort-Dichte von Videereignissen

Hangyu Qin Junbin Xiao* Angela Yao

Zusammenfassung

Dieses Papier stellt eine neue Aufgabe namens Fragebeantwortung zu dichten Videoereignissen (dense video events) vor, die darauf abzielt, dichte Ereignisfragen in langen Videos zu beantworten und zu verorten. Dies stellt MLLMs (Multi-Modal Large Language Models) vor die Herausforderung, mehrere Ereignisse über längere Zeiträume hinweg treu zu verstehen und zu interpretieren. Um diese Studie zu erleichtern, haben wir DeVE-QA erstellt – einen Datensatz mit 78.000 Fragen zu 26.000 Ereignissen in 10.600 langen Videos. Unsere Benchmarks zeigen, dass state-of-the-art MLLMs bei der Bearbeitung von DeVE-QA Schwierigkeiten haben. Zur Verbesserung schlagen wir DeVi vor, einen neuen anspruchsfreien Ansatz für MLLMs, der drei Module hervorhebt: ein hierarchisches Beschriftungsmodul (hierarchical captioning module), ein zeitliches Ereignisgedächtnismodul (temporal event memory module) und ein Modul zur Selbstkonsistenzprüfung (self-consistency checking module). Diese Module dienen jeweils der Erkennung, Kontextualisierung und Speicherung sowie der Verortung von dichten Ereignissen in langen Videos für die Fragebeantwortung. Ausführliche Experimente zeigen, dass DeVi bei der Beantwortung von dichten Ereignisfragen und dem Verorten relevanter Videomomente überlegen ist. Im Vergleich zu bestehenden MLLMs erreicht es eine bemerkenswerte Steigerung um 4,8 % und 2,1 % in der G(round)QA-Akkuratesse auf DeVE-QA und NExT-GQA, beziehungsweise. Daten und Code sind unter https://github.com/QHUni/DeVE-QA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp