Mehrskaliges räumlich-zeitliches Faltungsneuronales Netzwerk für aktionsbasierte Anerkennung auf der Grundlage von Skelettdaten
Die Skelett-Daten liefern bedeutende Informationen für die Aktionserkennung, da sie robust gegenüber stark gestörten Hintergründen und Lichtintensitätsvariationen sind. In den letzten Jahren zeigten Methoden basierend auf convolutionalen neuronalen Netzen (CNN) oder rekurrenten neuronalen Netzen aufgrund ihrer begrenzten Fähigkeit, räumlich-zeitliche Merkmale aus Skelett-Daten zu extrahieren, eine geringere Erkennungsgenauigkeit. Eine Reihe von Methoden, die auf Graph-Convolutional Networks (GCN) basieren, erreichte hervorragende Leistungen und etablierte sich zunehmend als dominierender Ansatz. Allerdings ist der Rechenaufwand solcher GCN-basierter Methoden erheblich hoch, wobei einige Ansätze sogar über 100 GFLOPs betragen. Dies steht im Gegensatz zu den hochkomprimierten Eigenschaften der Skelett-Daten. In diesem Artikel wird ein neuartiges Multi-Scale Spatial-Temporal Convolutional (MSST)-Modul vorgestellt, das die impliziten ergänzenden Vorteile verschiedener Skalen in räumlich-zeitlichen Darstellungen nutzt. Im Gegensatz zu früheren CNN-basierten Ansätzen, die Skelett-Daten in Pseudobilder umwandeln, oder komplexen Graph-Convolutionen verwenden wir stattdessen die volle Potenzialität von Multi-Scale-Convolutionen über zeitliche und räumliche Dimensionen, um umfassende Abhängigkeiten zwischen Skelett-Gelenken zu erfassen. Durch die Integration des MSST-Moduls wird ein Multi-Scale Spatial-Temporal Convolutional Neural Network (MSSTNet) vorgeschlagen, das hochwertige räumlich-zeitliche semantische Merkmale für die Aktionserkennung erfasst. Im Gegensatz zu früheren Methoden, die ihre Leistung durch erhöhten Rechenaufwand erzielen, lässt sich MSSTNet mit geringem Modellumfang und schneller Inferenz einfach implementieren. Darüber hinaus wird MSSTNet in einem vierströmigen Framework eingesetzt, um Daten verschiedener Modalitäten zu fusionieren und die Erkennungsgenauigkeit signifikant zu verbessern. Auf den Datensätzen NTU RGB+D 60, NTU RGB+D 120, UAV-Human und Northwestern-UCLA erreicht das vorgeschlagene MSSTNet eine konkurrenzfähige Leistung bei deutlich geringerem Rechenaufwand im Vergleich zu aktuellen State-of-the-Art-Methoden.