HyperAIHyperAI
vor 2 Monaten

STVGFormer: Raum-Zeitliches Video-Grounding mit statisch-dynamischem Kreuzmodalverstehen

Zihang Lin; Chaolei Tan; Jian-Fang Hu; Zhi Jin; Tiancai Ye; Wei-Shi Zheng
STVGFormer: Raum-Zeitliches Video-Grounding mit statisch-dynamischem Kreuzmodalverstehen
Abstract

In diesem technischen Bericht stellen wir unsere Lösung für die humanzentrierte räumlich-zeitliche Video-Grounding-Aufgabe vor. Wir schlagen einen prägnanten und effektiven Rahmenwerk namens STVGFormer vor, das räumlich-zeitliche visuelle und linguistische Abhängigkeiten mit einem statischen und einem dynamischen Ast modelliert. Der statische Ast führt eine multimodale Verarbeitung in einem einzelnen Bild aus und lernt, das Zielobjekt räumlich zu lokalisieren, basierend auf innerhalb des Bildes vorhandenen visuellen Hinweisen wie Objekterkennungen. Der dynamische Ast führt eine multimodale Verarbeitung über mehrere Bilder hinweg durch. Er lernt, den Start- und Endzeitpunkt des Zielmoments basierend auf dynamischen visuellen Hinweisen wie Bewegungen vorherzusagen. Sowohl der statische als auch der dynamische Ast sind als multimodale Transformer konzipiert. Wir haben zudem einen neuen Interaktionsblock zwischen statischem und dynamischem Ast entwickelt, um eine bidirektionale Informationsübertragung von nützlichen und ergänzenden Informationen zu ermöglichen, was sich als effektiv zur Verbesserung der Vorhersage bei schwierigen Fällen erwiesen hat. Unsere vorgeschlagene Methode erreichte einen vIoU-Wert von 39,6 % und belegte den ersten Platz im HC-STVG-Wettbewerb des 4. Person-in-Context-Challenges.

STVGFormer: Raum-Zeitliches Video-Grounding mit statisch-dynamischem Kreuzmodalverstehen | Neueste Forschungsarbeiten | HyperAI