HyperAIHyperAI
vor 2 Monaten

TubeDETR: Raum-Zeitliche Video-Verankerung mit Transformers

Yang, Antoine ; Miech, Antoine ; Sivic, Josef ; Laptev, Ivan ; Schmid, Cordelia
TubeDETR: Raum-Zeitliche Video-Verankerung mit Transformers
Abstract

Wir betrachten das Problem der Lokalisierung eines räumlich-zeitlichen Zylinders in einem Video, der einer gegebenen Textanfrage entspricht. Dies ist eine anspruchsvolle Aufgabe, die die gemeinsame und effiziente Modellierung zeitlicher, räumlicher und multimodaler Interaktionen erfordert. Um diese Aufgabe anzugehen, schlagen wir TubeDETR vor, eine auf Transformer basierende Architektur, die sich von den jüngsten Erfolgen solcher Modelle bei der textbedingten Objekterkennung inspirieren lässt. Unser Modell umfasst insbesondere: (i) einen effizienten Videound Textencoder, der räumliche multimodale Interaktionen über dünn besetzte Frames modelliert, und (ii) einen Raum-Zeit-Decoder, der die räumlich-zeitliche Lokalisierung gemeinsam durchführt. Wir zeigen den Vorteil unserer vorgeschlagenen Komponenten durch eine umfangreiche Abstraktionsstudie (ablation study). Darüber hinaus bewerten wir unseren vollständigen Ansatz anhand der Aufgabe der räumlich-zeitlichen Videoverankerung und demonstrieren Verbesserungen gegenüber dem Stand der Technik auf den anspruchsvollen Benchmarks VidSTG und HC-STVG. Der Quellcode und die trainierten Modelle sind öffentlich unter https://antoyang.github.io/tubedetr.html verfügbar.

TubeDETR: Raum-Zeitliche Video-Verankerung mit Transformers | Neueste Forschungsarbeiten | HyperAI