HyperAIHyperAI

Command Palette

Search for a command to run...

(2.5+1)D räumlich-zeitliche Szenengraphen für Video-Fragebeantwortung

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

Zusammenfassung

Spatio-temporale Szenengraph-Ansätze für video-basierte Schlussfolgerungsaufgaben, wie z. B. Video-Frage-Antwort (QA), konstruieren in der Regel für jeden Videoframe einen solchen Graphen. Diese Ansätze ignorieren häufig die Tatsache, dass Videos im Wesentlichen Folgen von 2D-„Ansichten“ von Ereignissen in einer 3D-Raumstruktur darstellen und dass somit die Semantik der 3D-Szene zwischen den Frames übertragen werden kann. Ausgehend von diesem Einblick stellen wir eine (2,5+1)D-Szenengraph-Darstellung vor, um die spatio-temporalen Informationsflüsse innerhalb der Videos besser zu erfassen. Konkret transformieren wir zunächst jede 2D-Bildsequenz mittels eines kommerziell verfügbaren 2D-zu-3D-Umwandlungsmoduls in eine pseudo-3D-Struktur, um einen 2,5D-Szenengraphen zu erstellen. Anschließend registrieren wir die Videoframes in einen gemeinsamen (2,5+1)D-spazio-temporalen Raum und beziehen jeden 2D-Szenengraphen innerhalb dieses Raums auf. Dieser (2,5+1)D-Graph wird anschließend in einen statischen und einen dynamischen Teil unterteilt, abhängig davon, ob die Objekte innerhalb der Graphen typischerweise in der realen Welt bewegt sind. Die Knoten im dynamischen Graphen werden mit Bewegungsmerkmalen angereichert, die deren Interaktionen mit anderen Graphknoten erfassen. Für die Video-QA-Aufgabe präsentieren wir schließlich eine neuartige, auf Transformers basierende Schlussfolgerungs-Pipeline, die den (2,5+1)D-Graphen in einen hierarchischen spatio-temporalen latenten Raum einbettet, in dem sowohl die Teilgraphen als auch deren Wechselwirkungen auf unterschiedlichen Granularitätsniveaus erfasst werden. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, führen wir Experimente auf den Datensätzen NExT-QA und AVSD-QA durch. Unsere Ergebnisse zeigen, dass unsere vorgeschlagene (2,5+1)D-Darstellung zu schnellerem Training und Inference führt, während unser hierarchisches Modell gegenüber dem Stand der Technik eine überlegene Leistung bei der Video-QA-Aufgabe erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
(2.5+1)D räumlich-zeitliche Szenengraphen für Video-Fragebeantwortung | Paper | HyperAI