HyperAIHyperAI

Command Palette

Search for a command to run...

DualVGR: Eine Dual-Visual-Graph-Reasoning-Einheit für Video-Fragenbeantwortung

Jianyu Wang Bing-Kun Bao Changsheng Xu

Zusammenfassung

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die von Agenten verlangt, reichhaltige Videoinhalte verstehen und räumlich-zeitliche Schlussfolgerungen ziehen zu können. Bestehende graphenbasierte Ansätze leisten jedoch eine mehrstufige Schlussfolgerung nicht zufriedenstellend, wobei zwei zentrale Eigenschaften der Video-Fragebeantwortung (VideoQA) vernachlässigt werden: (1) Selbst bei denselben Videos können unterschiedliche Fragen unterschiedlich viele Videosequenzen oder Objekte erfordern, um die Antwort mittels relationalem Schlussfolgern zu ermitteln; (2) Während des Schlussfolgerungsprozesses zeigen sich komplexe Wechselwirkungen zwischen visuellen Merkmalen des Aussehens und der Bewegung, die sich gegenseitig korrelieren und ergänzen. Ausgehend von diesen Beobachtungen stellen wir eine Dual-Visual-Graph-Reasoning-Einheit (DualVGR) vor, die Videos end-to-end verarbeitet. Der erste Beitrag unserer DualVGR ist die Entwicklung eines nachvollziehbaren Query-Punishment-Moduls, das durch mehrere Zyklen der Schlussfolgerung irrelevante visuelle Merkmale filtern kann. Der zweite Beitrag ist das vorgeschlagene Video-basierte Multi-View-Graph-Attention-Netzwerk, das Beziehungen zwischen Aussehens- und Bewegungsmerkmalen erfassen kann. Unser DualVGR-Netzwerk erreicht Spitzenleistungen auf den Standardbenchmarks MSVD-QA und SVQA und zeigt wettbewerbsfähige Ergebnisse auf dem Benchmark MSRVTT-QA. Der Quellcode ist unter https://github.com/MMIR/DualVGR-VideoQA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DualVGR: Eine Dual-Visual-Graph-Reasoning-Einheit für Video-Fragenbeantwortung | Paper | HyperAI