HyperAIHyperAI
vor 2 Monaten

STM: Raum-Zeit- und Bewegungscodierung für die Aktionserkennung

Boyuan Jiang; Mengmeng Wang; Weihao Gan; Wei Wu; Junjie Yan
STM: Raum-Zeit- und Bewegungscodierung für die Aktionserkennung
Abstract

Raumzeitliche und Bewegungsmerkmale sind zwei ergänzende und entscheidende Informationen für die Aktionserkennung in Videos. Aktuelle Stand der Technik-Methoden verwenden einen 3D-CNN-Stream zur Lernraumzeitlichen Merkmale und einen weiteren Fluss-Stream zur Lernbewegungsmerkmale. In dieser Arbeit streben wir danach, diese beiden Merkmale effizient in einem vereinten 2D-Rahmen zu kodieren. Zu diesem Zweck schlagen wir zunächst einen STM-Block vor, der ein kanalweises Raumzeitmodul (Channel-wise SpatioTemporal Module, CSTM) enthält, um die raumzeitlichen Merkmale darzustellen, und ein kanalweises Bewegungsmodul (Channel-wise Motion Module, CMM), um die Bewegungsmerkmale effizient zu kodieren. Anschließend ersetzen wir die ursprünglichen Residualblöcke in der ResNet-Architektur durch STM-Blöcke, um ein einfaches aber effektives STM-Netzwerk zu bilden, das sehr geringe zusätzliche Rechenaufwände verursacht. Umfangreiche Experimente zeigen, dass das vorgeschlagene STM-Netzwerk sowohl auf zeitbezogenen Datensätzen (wie Something-Something v1 & v2 und Jester) als auch auf szenenbezogenen Datensätzen (wie Kinetics-400, UCF-101 und HMDB-51) dank der gemeinsamen Kodierung von raumzeitlichen und Bewegungsmerkmalen den aktuellen Stand der Technik übertrifft.