vor 7 Monaten

Zusammenfassung

Video-Fragebeantwortung (VQA) ist eine wichtige Aufgabe zur Analyse der zeitlichen Struktur von Videos. Wir stellen fest, dass es drei einzigartige Merkmale der Video-Fragebeantwortung gibt, die sie von der Bild-Fragebeantwortung unterscheiden: (1) Sie befasst sich mit langen Bildsequenzen, die nicht nur quantitativ, sondern auch qualitativ reichere Informationen enthalten; (2) Bewegungs- und Erscheinungsinformationen sind in der Regel miteinander korreliert und können nützliche Aufmerksamkeitshinweise füreinander liefern; (3) Verschiedene Fragen erfordern unterschiedliche Anzahlen von Bildern, um die Antwort zu inferieren. Basierend auf diesen Beobachtungen schlagen wir ein Bewegungs-Erscheinungs-Cogedächtnisnetzwerk für Video-Fragebeantwortung vor. Unser Netzwerk basiert auf Konzepten des Dynamischen Gedächtnisnetzes (DMN) und führt neue Mechanismen für VQA ein. Insbesondere gibt es drei auffällige Aspekte: (1) einen Cogedächtnisaufmerksamkeitsmechanismus, der Hinweise aus Bewegung und Erscheinung zur Generierung von Aufmerksamkeit nutzt; (2) ein zeitliches Conv-Deconv-Netzwerk zur Generierung mehrstufiger kontextueller Fakten; (3) eine dynamische Faktensammelmethode, um je nach Frage dynamisch eine zeitliche Repräsentation zu konstruieren. Wir evaluieren unsere Methode am TGIF-QA-Datensatz und erzielen dabei signifikant bessere Ergebnisse als der aktuelle Stand der Technik in allen vier Aufgaben des TGIF-QA-Datensatzes.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Bildverstehen

Faltungsneuronales Netzwerk

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Bildverstehen

Faltungsneuronales Netzwerk

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bewegungs-Erscheinungsgemeinschafts-Netzwerke für Video-Fragebeantwortung

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters