HyperAIHyperAI
vor 17 Tagen

UniFormerV2: Raumzeitliches Lernen durch die Ausrüstung von Bild-ViTs mit Video UniFormer

{Anonymous}
UniFormerV2: Raumzeitliches Lernen durch die Ausrüstung von Bild-ViTs mit Video UniFormer
Abstract

Die Entwicklung diskriminativer spatiotemporaler Darstellungen stellt das zentrale Problem der Videoverstehens ist. In jüngster Zeit haben Vision-Transformer (ViTs) ihre Stärke bei der Erfassung langfristiger Video-Abhängigkeiten durch Selbst-Attention unter Beweis gestellt. Leider zeigen sie jedoch Grenzen bei der Bewältigung lokaler Redundanz in Videos, da sie zwischen allen Tokens eine blinden globalen Vergleich durchführen. UniFormer hat dieses Problem erfolgreich gemildert, indem er Faltung und Selbst-Attention in einem Transformer-Format als Relation-Aggregator vereint hat. Allerdings erfordert dieses Modell eine aufwändige und komplizierte Vortrainingsphase auf Bildern, bevor es auf Videos feinabgestimmt werden kann. Dies behindert seine breite praktische Anwendung. Im Gegensatz dazu sind öffentlich verfügbare ViTs bereits leicht zugänglich und gut mit reichhaltiger Bilddaten-Supervision vortrainiert. Aus diesen Beobachtungen heraus schlagen wir ein generisches Paradigma vor, um eine leistungsstarke Familie von Video-Netzwerken zu entwickeln, indem wir vortrainierte ViTs mit effizienten UniFormer-Designs ausstatten. Wir bezeichnen diese Familie als UniFormerV2, da sie den prägnanten Stil des UniFormer-Blocks übernimmt. Allerdings enthält sie neuartige lokale und globale Relation-Aggregatoren, die eine vorzügliche Balance zwischen Genauigkeit und Rechenkosten ermöglichen, indem sie die Vorteile von ViTs und UniFormer nahtlos integrieren. Ohne zusätzliche Tricks erzielt unser UniFormerV2 die Stand der Technik bei der Erkennung auf acht etablierten Video-Benchmarks, darunter kinetik-basierte Datensätze wie Kinetics-400/600/700 und Moments in Time sowie zeitbezogene Datensätze wie Something-Something V1/V2, untrimmte ActivityNet und HACS. Insbesondere ist es, soweit uns bekannt, das erste Modell, das eine Top-1-Accuracy von 90 % auf Kinetics-400 erreicht. Die Modelle werden anschließend veröffentlicht.