HyperAIHyperAI

Command Palette

Search for a command to run...

STM: Raum-Zeit- und Bewegungscodierung für die Aktionserkennung

Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan

Zusammenfassung

Raumzeitliche und Bewegungsmerkmale sind zwei ergänzende und entscheidende Informationen für die Aktionserkennung in Videos. Aktuelle Stand der Technik-Methoden verwenden einen 3D-CNN-Stream zur Lernraumzeitlichen Merkmale und einen weiteren Fluss-Stream zur Lernbewegungsmerkmale. In dieser Arbeit streben wir danach, diese beiden Merkmale effizient in einem vereinten 2D-Rahmen zu kodieren. Zu diesem Zweck schlagen wir zunächst einen STM-Block vor, der ein kanalweises Raumzeitmodul (Channel-wise SpatioTemporal Module, CSTM) enthält, um die raumzeitlichen Merkmale darzustellen, und ein kanalweises Bewegungsmodul (Channel-wise Motion Module, CMM), um die Bewegungsmerkmale effizient zu kodieren. Anschließend ersetzen wir die ursprünglichen Residualblöcke in der ResNet-Architektur durch STM-Blöcke, um ein einfaches aber effektives STM-Netzwerk zu bilden, das sehr geringe zusätzliche Rechenaufwände verursacht. Umfangreiche Experimente zeigen, dass das vorgeschlagene STM-Netzwerk sowohl auf zeitbezogenen Datensätzen (wie Something-Something v1 & v2 und Jester) als auch auf szenenbezogenen Datensätzen (wie Kinetics-400, UCF-101 und HMDB-51) dank der gemeinsamen Kodierung von raumzeitlichen und Bewegungsmerkmalen den aktuellen Stand der Technik übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp