HyperAIHyperAI

Command Palette

Search for a command to run...

STVGFormer: Raum-Zeitliches Video-Grounding mit statisch-dynamischem Kreuzmodalverstehen

Zihang Lin Chaolei Tan Jian-Fang Hu Zhi Jin Tiancai Ye Wei-Shi Zheng

Zusammenfassung

In diesem technischen Bericht stellen wir unsere Lösung für die humanzentrierte räumlich-zeitliche Video-Grounding-Aufgabe vor. Wir schlagen einen prägnanten und effektiven Rahmenwerk namens STVGFormer vor, das räumlich-zeitliche visuelle und linguistische Abhängigkeiten mit einem statischen und einem dynamischen Ast modelliert. Der statische Ast führt eine multimodale Verarbeitung in einem einzelnen Bild aus und lernt, das Zielobjekt räumlich zu lokalisieren, basierend auf innerhalb des Bildes vorhandenen visuellen Hinweisen wie Objekterkennungen. Der dynamische Ast führt eine multimodale Verarbeitung über mehrere Bilder hinweg durch. Er lernt, den Start- und Endzeitpunkt des Zielmoments basierend auf dynamischen visuellen Hinweisen wie Bewegungen vorherzusagen. Sowohl der statische als auch der dynamische Ast sind als multimodale Transformer konzipiert. Wir haben zudem einen neuen Interaktionsblock zwischen statischem und dynamischem Ast entwickelt, um eine bidirektionale Informationsübertragung von nützlichen und ergänzenden Informationen zu ermöglichen, was sich als effektiv zur Verbesserung der Vorhersage bei schwierigen Fällen erwiesen hat. Unsere vorgeschlagene Methode erreichte einen vIoU-Wert von 39,6 % und belegte den ersten Platz im HC-STVG-Wettbewerb des 4. Person-in-Context-Challenges.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp