Command Palette
Search for a command to run...
MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering
{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

Abstract
Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein Verständnis des Videos und der Frage im selben Kontext erfordert. Diese Schwierigkeit steigt weiter an, wenn die Fragen Schlussfolgerungen erfordern, beispielsweise die Vorhersage zukünftiger Ereignisse oder die Erklärung von kontrafaktischen Szenarien, da hier Wissen erforderlich ist, das nicht explizit im Video dargestellt ist. Bestehende Methoden nutzen eine grobgranuläre Fusion von Video- und Sprachmerkmalen und ignorieren dabei die zeitliche Struktur. Um dieses Problem anzugehen, schlagen wir ein neuartiges Vision-Text-Fusionsmodul vor, das die zeitliche Kontextinformation des Videos und der Frage erlernt. Unser Modul erweitert die Frage-Token entlang der zeitlichen Achse des Videos und fusioniert sie mit den Video-Merkmalen, um neue Darstellungen mit lokalem und globalem Kontext zu generieren. Wir haben unsere Methode an vier VideoQA-Datensätzen evaluiert, darunter MSVD-QA, NExT-QA, Causal-VidQA und AGQA-2.0.
Benchmarks
| Benchmark | Methodik | Metriken | 
|---|---|---|
| video-question-answering-on-agqa-2-0-balanced | MMTF | Average Accuracy: 44.36  | 
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.