HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering

{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering

Abstract

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein Verständnis des Videos und der Frage im selben Kontext erfordert. Diese Schwierigkeit steigt weiter an, wenn die Fragen Schlussfolgerungen erfordern, beispielsweise die Vorhersage zukünftiger Ereignisse oder die Erklärung von kontrafaktischen Szenarien, da hier Wissen erforderlich ist, das nicht explizit im Video dargestellt ist. Bestehende Methoden nutzen eine grobgranuläre Fusion von Video- und Sprachmerkmalen und ignorieren dabei die zeitliche Struktur. Um dieses Problem anzugehen, schlagen wir ein neuartiges Vision-Text-Fusionsmodul vor, das die zeitliche Kontextinformation des Videos und der Frage erlernt. Unser Modul erweitert die Frage-Token entlang der zeitlichen Achse des Videos und fusioniert sie mit den Video-Merkmalen, um neue Darstellungen mit lokalem und globalem Kontext zu generieren. Wir haben unsere Methode an vier VideoQA-Datensätzen evaluiert, darunter MSVD-QA, NExT-QA, Causal-VidQA und AGQA-2.0.

Benchmarks

BenchmarkMethodikMetriken
video-question-answering-on-agqa-2-0-balancedMMTF
Average Accuracy: 44.36

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering | Forschungsarbeiten | HyperAI