HyperAIHyperAI

Command Palette

Search for a command to run...

TubeDETR: Raum-Zeitliche Video-Verankerung mit Transformers

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

Zusammenfassung

Wir betrachten das Problem der Lokalisierung eines räumlich-zeitlichen Zylinders in einem Video, der einer gegebenen Textanfrage entspricht. Dies ist eine anspruchsvolle Aufgabe, die die gemeinsame und effiziente Modellierung zeitlicher, räumlicher und multimodaler Interaktionen erfordert. Um diese Aufgabe anzugehen, schlagen wir TubeDETR vor, eine auf Transformer basierende Architektur, die sich von den jüngsten Erfolgen solcher Modelle bei der textbedingten Objekterkennung inspirieren lässt. Unser Modell umfasst insbesondere: (i) einen effizienten Videound Textencoder, der räumliche multimodale Interaktionen über dünn besetzte Frames modelliert, und (ii) einen Raum-Zeit-Decoder, der die räumlich-zeitliche Lokalisierung gemeinsam durchführt. Wir zeigen den Vorteil unserer vorgeschlagenen Komponenten durch eine umfangreiche Abstraktionsstudie (ablation study). Darüber hinaus bewerten wir unseren vollständigen Ansatz anhand der Aufgabe der räumlich-zeitlichen Videoverankerung und demonstrieren Verbesserungen gegenüber dem Stand der Technik auf den anspruchsvollen Benchmarks VidSTG und HC-STVG. Der Quellcode und die trainierten Modelle sind öffentlich unter https://antoyang.github.io/tubedetr.html verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp