HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachter Video-Transformer

Kanchana Ranasinghe Muzammal Naseer Salman Khan Fahad Shahbaz Khan Michael Ryoo

Zusammenfassung

In diesem Paper schlagen wir ein selbstüberwachtes Training für Video-Transformer unter Verwendung von ungelabelten Videodaten vor. Aus einem gegebenen Video erstellen wir lokale und globale raumzeitliche Ansichten mit unterschiedlichen räumlichen Auflösungen und Bildraten. Unser selbstüberwachtes Ziel besteht darin, die Merkmale dieser verschiedenen Ansichten, die dasselbe Video darstellen, zu entsprechen, um invariant gegenüber raumzeitlichen Variationen von Aktionen zu sein. So weit uns bekannt ist, ist der vorgeschlagene Ansatz der erste, der die Abhängigkeit von negativen Beispielen oder speziellen Speicherbanken bei selbstüberwachten Video-Transformer (SVT) verringert. Zudem ermöglicht die Flexibilität von Transformer-Modellen aufgrund dynamisch angepasster Positionscodierungen die gleichzeitige Unterstützung von langsamen und schnellen Videoprozessierung innerhalb einer einzigen Architektur sowie die Modellierung langfristiger Beziehungen entlang der raumzeitlichen Dimensionen. Unser Ansatz erzielt gute Ergebnisse auf vier Benchmarks zur Aktionserkennung (Kinetics-400, UCF-101, HMDB-51 und SSv2) und konvergiert mit kleinen Batch-Größen schneller. Code: https://git.io/J1juJ


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachter Video-Transformer | Paper | HyperAI