Command Palette
Search for a command to run...
STM: Raum-Zeit- und Bewegungscodierung für die Aktionserkennung
STM: Raum-Zeit- und Bewegungscodierung für die Aktionserkennung
Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan
Zusammenfassung
Raumzeitliche und Bewegungsmerkmale sind zwei ergänzende und entscheidende Informationen für die Aktionserkennung in Videos. Aktuelle Stand der Technik-Methoden verwenden einen 3D-CNN-Stream zur Lernraumzeitlichen Merkmale und einen weiteren Fluss-Stream zur Lernbewegungsmerkmale. In dieser Arbeit streben wir danach, diese beiden Merkmale effizient in einem vereinten 2D-Rahmen zu kodieren. Zu diesem Zweck schlagen wir zunächst einen STM-Block vor, der ein kanalweises Raumzeitmodul (Channel-wise SpatioTemporal Module, CSTM) enthält, um die raumzeitlichen Merkmale darzustellen, und ein kanalweises Bewegungsmodul (Channel-wise Motion Module, CMM), um die Bewegungsmerkmale effizient zu kodieren. Anschließend ersetzen wir die ursprünglichen Residualblöcke in der ResNet-Architektur durch STM-Blöcke, um ein einfaches aber effektives STM-Netzwerk zu bilden, das sehr geringe zusätzliche Rechenaufwände verursacht. Umfangreiche Experimente zeigen, dass das vorgeschlagene STM-Netzwerk sowohl auf zeitbezogenen Datensätzen (wie Something-Something v1 & v2 und Jester) als auch auf szenenbezogenen Datensätzen (wie Kinetics-400, UCF-101 und HMDB-51) dank der gemeinsamen Kodierung von raumzeitlichen und Bewegungsmerkmalen den aktuellen Stand der Technik übertrifft.