HyperAIHyperAI
vor 17 Tagen

Selbstüberwachter Video-Transformer

Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo
Selbstüberwachter Video-Transformer
Abstract

In diesem Paper schlagen wir ein selbstüberwachtes Training für Video-Transformer unter Verwendung von ungelabelten Videodaten vor. Aus einem gegebenen Video erstellen wir lokale und globale raumzeitliche Ansichten mit unterschiedlichen räumlichen Auflösungen und Bildraten. Unser selbstüberwachtes Ziel besteht darin, die Merkmale dieser verschiedenen Ansichten, die dasselbe Video darstellen, zu entsprechen, um invariant gegenüber raumzeitlichen Variationen von Aktionen zu sein. So weit uns bekannt ist, ist der vorgeschlagene Ansatz der erste, der die Abhängigkeit von negativen Beispielen oder speziellen Speicherbanken bei selbstüberwachten Video-Transformer (SVT) verringert. Zudem ermöglicht die Flexibilität von Transformer-Modellen aufgrund dynamisch angepasster Positionscodierungen die gleichzeitige Unterstützung von langsamen und schnellen Videoprozessierung innerhalb einer einzigen Architektur sowie die Modellierung langfristiger Beziehungen entlang der raumzeitlichen Dimensionen. Unser Ansatz erzielt gute Ergebnisse auf vier Benchmarks zur Aktionserkennung (Kinetics-400, UCF-101, HMDB-51 und SSv2) und konvergiert mit kleinen Batch-Größen schneller. Code: https://git.io/J1juJ