DualVGR: Eine Dual-Visual-Graph-Reasoning-Einheit für Video-Fragenbeantwortung

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die von Agenten verlangt, reichhaltige Videoinhalte verstehen und räumlich-zeitliche Schlussfolgerungen ziehen zu können. Bestehende graphenbasierte Ansätze leisten jedoch eine mehrstufige Schlussfolgerung nicht zufriedenstellend, wobei zwei zentrale Eigenschaften der Video-Fragebeantwortung (VideoQA) vernachlässigt werden: (1) Selbst bei denselben Videos können unterschiedliche Fragen unterschiedlich viele Videosequenzen oder Objekte erfordern, um die Antwort mittels relationalem Schlussfolgern zu ermitteln; (2) Während des Schlussfolgerungsprozesses zeigen sich komplexe Wechselwirkungen zwischen visuellen Merkmalen des Aussehens und der Bewegung, die sich gegenseitig korrelieren und ergänzen. Ausgehend von diesen Beobachtungen stellen wir eine Dual-Visual-Graph-Reasoning-Einheit (DualVGR) vor, die Videos end-to-end verarbeitet. Der erste Beitrag unserer DualVGR ist die Entwicklung eines nachvollziehbaren Query-Punishment-Moduls, das durch mehrere Zyklen der Schlussfolgerung irrelevante visuelle Merkmale filtern kann. Der zweite Beitrag ist das vorgeschlagene Video-basierte Multi-View-Graph-Attention-Netzwerk, das Beziehungen zwischen Aussehens- und Bewegungsmerkmalen erfassen kann. Unser DualVGR-Netzwerk erreicht Spitzenleistungen auf den Standardbenchmarks MSVD-QA und SVQA und zeigt wettbewerbsfähige Ergebnisse auf dem Benchmark MSRVTT-QA. Der Quellcode ist unter https://github.com/MMIR/DualVGR-VideoQA verfügbar.