MMNet: Ein modellbasiertes multimodales Netzwerk zur Menschlichen Aktenerkennung in RGB-D-Videos
{Keith C.C. Chan Sheng-hua Zhong Xiang Zhang Yan Liu Bruce X.B. Yu}
Abstract
Die Erkennung menschlicher Aktivitäten (Human Action Recognition, HAR) in RGB-D-Videos wurde seit der Verfügbarkeit kostengünstiger Tiefensensoren umfassend untersucht. Derzeit haben einmodale Ansätze (z. B. auf Skelett- oder RGB-Videodaten basierende Methoden) dank zunehmend größerer Datensätze erhebliche Fortschritte erzielt. Multimodale Methoden, insbesondere solche mit Modell-Level-Fusion, wurden hingegen bisher selten erforscht. In diesem Artikel stellen wir ein modellbasiertes multimodales Netzwerk (MMNet) vor, das Skelett- und RGB-Modaliäten mittels eines modellbasierten Ansatzes fusioniert. Ziel unserer Methode ist es, die Genauigkeit der Ensemble-Erkennung durch effektive Nutzung sich gegenseitig ergänzender Informationen aus verschiedenen Datensmodalitäten zu verbessern. Bei der modellbasierten Fusionsstrategie nutzen wir ein räumlich-zeitliches Graphen-Convolutional-Netzwerk (spatiotemporal graph convolution network) für die Skelett-Modality, um Aufmerksamkeitsgewichte zu lernen, die anschließend an das Netzwerk der RGB-Modality übertragen werden. Umfassende Experimente wurden auf fünf Standard-Datensätzen durchgeführt: NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview und Toyota Smarthome. Durch die Aggregation der Ergebnisse mehrerer Modalitäten zeigt sich, dass unsere Methode die state-of-the-art-Ansätze in sechs verschiedenen Evaluierungsprotokollen der fünf Datensätze übertrifft. Damit kann das vorgeschlagene MMNet effektiv sich gegenseitig ergänzende Merkmale in verschiedenen RGB-D-Videomodalitäten erfassen und für die HAR diskriminativere Merkmale bereitstellen. Zudem haben wir unser MMNet auf einem RGB-Videodatensatz, dem Kinetics 400, getestet, der mehr Outdoor-Aktionen enthält, wobei konsistente Ergebnisse mit denen der RGB-D-Videodatensätze erzielt wurden.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-classification-on-toyota-smarthome | MMNet | CS: 70.1 |
| action-recognition-in-videos-on-ntu-rgbd | MMNet (RGB + Pose) | Accuracy (CS): 96.0 Accuracy (CV): 98.8 |
| action-recognition-in-videos-on-ntu-rgbd-120 | MMNet (RGB + Pose) | Accuracy (Cross-Setup): 94.4 Accuracy (Cross-Subject): 92.9 |
| action-recognition-in-videos-on-pku-mmd | MMNet | X-Sub: 97.4 X-View: 98.6 |
| skeleton-based-action-recognition-on-n-ucla | MMNet (RGB + Pose) | Accuracy: 93.7 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.