MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein Verständnis des Videos und der Frage im selben Kontext erfordert. Diese Schwierigkeit steigt weiter an, wenn die Fragen Schlussfolgerungen erfordern, beispielsweise die Vorhersage zukünftiger Ereignisse oder die Erklärung von kontrafaktischen Szenarien, da hier Wissen erforderlich ist, das nicht explizit im Video dargestellt ist. Bestehende Methoden nutzen eine grobgranuläre Fusion von Video- und Sprachmerkmalen und ignorieren dabei die zeitliche Struktur. Um dieses Problem anzugehen, schlagen wir ein neuartiges Vision-Text-Fusionsmodul vor, das die zeitliche Kontextinformation des Videos und der Frage erlernt. Unser Modul erweitert die Frage-Token entlang der zeitlichen Achse des Videos und fusioniert sie mit den Video-Merkmalen, um neue Darstellungen mit lokalem und globalem Kontext zu generieren. Wir haben unsere Methode an vier VideoQA-Datensätzen evaluiert, darunter MSVD-QA, NExT-QA, Causal-VidQA und AGQA-2.0.