HyperAIHyperAI

Command Palette

Search for a command to run...

MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering

Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad

Zusammenfassung

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein Verständnis des Videos und der Frage im selben Kontext erfordert. Diese Schwierigkeit steigt weiter an, wenn die Fragen Schlussfolgerungen erfordern, beispielsweise die Vorhersage zukünftiger Ereignisse oder die Erklärung von kontrafaktischen Szenarien, da hier Wissen erforderlich ist, das nicht explizit im Video dargestellt ist. Bestehende Methoden nutzen eine grobgranuläre Fusion von Video- und Sprachmerkmalen und ignorieren dabei die zeitliche Struktur. Um dieses Problem anzugehen, schlagen wir ein neuartiges Vision-Text-Fusionsmodul vor, das die zeitliche Kontextinformation des Videos und der Frage erlernt. Unser Modul erweitert die Frage-Token entlang der zeitlichen Achse des Videos und fusioniert sie mit den Video-Merkmalen, um neue Darstellungen mit lokalem und globalem Kontext zu generieren. Wir haben unsere Methode an vier VideoQA-Datensätzen evaluiert, darunter MSVD-QA, NExT-QA, Causal-VidQA und AGQA-2.0.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMTF: Multi-Modal Temporal Fusion für commonsense Video-Question-Answering | Paper | HyperAI