Video-FocalNets: Raumszeitliche fokale Modulation für die Video-Action-Erkennung

Neuere Video-Erkennungsmodelle nutzen Transformer-Architekturen zur Modellierung langreichweitiger räumlich-zeitlicher Kontexte. Video-Transformer basieren auf Self-Attention, die den globalen Kontext effizient erfassen können, jedoch mit hohem Rechenaufwand verbunden sind. Im Gegensatz dazu bieten convolutionale Ansätze für Videos eine effiziente Alternative, verfügen jedoch über eine eingeschränkte Fähigkeit zur Modellierung langreichweitiger Abhängigkeiten. Um die Vorteile beider Ansätze zu kombinieren, präsentiert diese Arbeit Video-FocalNet, eine effektive und effiziente Architektur für die Video-Erkennung, die sowohl lokale als auch globale Kontexte modelliert. Video-FocalNet basiert auf einer räumlich-zeitlichen Focal-Modulation-Architektur, die die Reihenfolge der Interaktion und Aggregation im Vergleich zu herkömmlichen Self-Attention-Verfahren umkehrt, um eine bessere Effizienz zu erzielen. Zudem werden sowohl der Aggregations- als auch der Interaktions-Schritt mithilfe effizienter Faltungsoperationen und elementweiser Multiplikationen implementiert, die gegenüber ihren Self-Attention-Entsprechungen auf Video-Darstellungen rechnerisch weniger aufwendig sind. Wir untersuchen ausführlich den Gestaltungsraum der auf Focal-Modulation basierenden räumlich-zeitlichen Kontextmodellierung und zeigen, dass unsere parallele räumliche und zeitliche Kodierung die optimale Wahl darstellt. Video-FocalNets erzielen gegenüber den aktuellen State-of-the-Art-Transformer-basierten Modellen für die Video-Erkennung auf fünf großen Datensätzen (Kinetics-400, Kinetics-600, SS-v2, Diving-48 und ActivityNet-1.3) hervorragende Ergebnisse bei geringerem Rechenaufwand. Unser Code und die Modelle sind unter https://github.com/TalalWasim/Video-FocalNets verfügbar.