HyperAIHyperAI

Command Palette

Search for a command to run...

Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

Video-Fragebeantwortung (VQA) ist eine wichtige Aufgabe zur Analyse der zeitlichen Struktur von Videos. Wir stellen fest, dass es drei einzigartige Merkmale der Video-Fragebeantwortung gibt, die sie von der Bild-Fragebeantwortung unterscheiden: (1) Sie befasst sich mit langen Bildsequenzen, die nicht nur quantitativ, sondern auch qualitativ reichere Informationen enthalten; (2) Bewegungs- und Erscheinungsinformationen sind in der Regel miteinander korreliert und können nützliche Aufmerksamkeitshinweise füreinander liefern; (3) Verschiedene Fragen erfordern unterschiedliche Anzahlen von Bildern, um die Antwort zu inferieren. Basierend auf diesen Beobachtungen schlagen wir ein Bewegungs-Erscheinungs-Cogedächtnisnetzwerk für Video-Fragebeantwortung vor. Unser Netzwerk basiert auf Konzepten des Dynamischen Gedächtnisnetzes (DMN) und führt neue Mechanismen für VQA ein. Insbesondere gibt es drei auffällige Aspekte: (1) einen Cogedächtnisaufmerksamkeitsmechanismus, der Hinweise aus Bewegung und Erscheinung zur Generierung von Aufmerksamkeit nutzt; (2) ein zeitliches Conv-Deconv-Netzwerk zur Generierung mehrstufiger kontextueller Fakten; (3) eine dynamische Faktensammelmethode, um je nach Frage dynamisch eine zeitliche Repräsentation zu konstruieren. Wir evaluieren unsere Methode am TGIF-QA-Datensatz und erzielen dabei signifikant bessere Ergebnisse als der aktuelle Stand der Technik in allen vier Aufgaben des TGIF-QA-Datensatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung | Paper | HyperAI