Command Palette
Search for a command to run...
(2.5+1)D räumlich-zeitliche Szenengraphen für Video-Fragebeantwortung
(2.5+1)D räumlich-zeitliche Szenengraphen für Video-Fragebeantwortung
Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux
Zusammenfassung
Spatio-temporale Szenengraph-Ansätze für video-basierte Schlussfolgerungsaufgaben, wie z. B. Video-Frage-Antwort (QA), konstruieren in der Regel für jeden Videoframe einen solchen Graphen. Diese Ansätze ignorieren häufig die Tatsache, dass Videos im Wesentlichen Folgen von 2D-„Ansichten“ von Ereignissen in einer 3D-Raumstruktur darstellen und dass somit die Semantik der 3D-Szene zwischen den Frames übertragen werden kann. Ausgehend von diesem Einblick stellen wir eine (2,5+1)D-Szenengraph-Darstellung vor, um die spatio-temporalen Informationsflüsse innerhalb der Videos besser zu erfassen. Konkret transformieren wir zunächst jede 2D-Bildsequenz mittels eines kommerziell verfügbaren 2D-zu-3D-Umwandlungsmoduls in eine pseudo-3D-Struktur, um einen 2,5D-Szenengraphen zu erstellen. Anschließend registrieren wir die Videoframes in einen gemeinsamen (2,5+1)D-spazio-temporalen Raum und beziehen jeden 2D-Szenengraphen innerhalb dieses Raums auf. Dieser (2,5+1)D-Graph wird anschließend in einen statischen und einen dynamischen Teil unterteilt, abhängig davon, ob die Objekte innerhalb der Graphen typischerweise in der realen Welt bewegt sind. Die Knoten im dynamischen Graphen werden mit Bewegungsmerkmalen angereichert, die deren Interaktionen mit anderen Graphknoten erfassen. Für die Video-QA-Aufgabe präsentieren wir schließlich eine neuartige, auf Transformers basierende Schlussfolgerungs-Pipeline, die den (2,5+1)D-Graphen in einen hierarchischen spatio-temporalen latenten Raum einbettet, in dem sowohl die Teilgraphen als auch deren Wechselwirkungen auf unterschiedlichen Granularitätsniveaus erfasst werden. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, führen wir Experimente auf den Datensätzen NExT-QA und AVSD-QA durch. Unsere Ergebnisse zeigen, dass unsere vorgeschlagene (2,5+1)D-Darstellung zu schnellerem Training und Inference führt, während unser hierarchisches Modell gegenüber dem Stand der Technik eine überlegene Leistung bei der Video-QA-Aufgabe erzielt.