Command Palette
Search for a command to run...
Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung
Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung
Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia
Zusammenfassung
Video-Fragebeantwortung (VQA) ist eine wichtige Aufgabe zur Analyse der zeitlichen Struktur von Videos. Wir stellen fest, dass es drei einzigartige Merkmale der Video-Fragebeantwortung gibt, die sie von der Bild-Fragebeantwortung unterscheiden: (1) Sie befasst sich mit langen Bildsequenzen, die nicht nur quantitativ, sondern auch qualitativ reichere Informationen enthalten; (2) Bewegungs- und Erscheinungsinformationen sind in der Regel miteinander korreliert und können nützliche Aufmerksamkeitshinweise füreinander liefern; (3) Verschiedene Fragen erfordern unterschiedliche Anzahlen von Bildern, um die Antwort zu inferieren. Basierend auf diesen Beobachtungen schlagen wir ein Bewegungs-Erscheinungs-Cogedächtnisnetzwerk für Video-Fragebeantwortung vor. Unser Netzwerk basiert auf Konzepten des Dynamischen Gedächtnisnetzes (DMN) und führt neue Mechanismen für VQA ein. Insbesondere gibt es drei auffällige Aspekte: (1) einen Cogedächtnisaufmerksamkeitsmechanismus, der Hinweise aus Bewegung und Erscheinung zur Generierung von Aufmerksamkeit nutzt; (2) ein zeitliches Conv-Deconv-Netzwerk zur Generierung mehrstufiger kontextueller Fakten; (3) eine dynamische Faktensammelmethode, um je nach Frage dynamisch eine zeitliche Repräsentation zu konstruieren. Wir evaluieren unsere Methode am TGIF-QA-Datensatz und erzielen dabei signifikant bessere Ergebnisse als der aktuelle Stand der Technik in allen vier Aufgaben des TGIF-QA-Datensatzes.