vor 3 Monaten

MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering

{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

Abstract

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein Verständnis des Videos und der Frage im selben Kontext erfordert. Diese Schwierigkeit steigt weiter an, wenn die Fragen Schlussfolgerungen erfordern, beispielsweise die Vorhersage zukünftiger Ereignisse oder die Erklärung von kontrafaktischen Szenarien, da hier Wissen erforderlich ist, das nicht explizit im Video dargestellt ist. Bestehende Methoden nutzen eine grobgranuläre Fusion von Video- und Sprachmerkmalen und ignorieren dabei die zeitliche Struktur. Um dieses Problem anzugehen, schlagen wir ein neuartiges Vision-Text-Fusionsmodul vor, das die zeitliche Kontextinformation des Videos und der Frage erlernt. Unser Modul erweitert die Frage-Token entlang der zeitlichen Achse des Videos und fusioniert sie mit den Video-Merkmalen, um neue Darstellungen mit lokalem und globalem Kontext zu generieren. Wir haben unsere Methode an vier VideoQA-Datensätzen evaluiert, darunter MSVD-QA, NExT-QA, Causal-VidQA und AGQA-2.0.

Benchmarks

Benchmark	Methodik	Metriken
video-question-answering-on-agqa-2-0-balanced	MMTF	Average Accuracy: 44.36

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp