HyperAIHyperAI
vor 17 Tagen

MMNet: Ein modellbasiertes multimodales Netzwerk zur Menschlichen Aktenerkennung in RGB-D-Videos

{Keith C.C. Chan, Sheng-hua Zhong, Xiang Zhang, Yan Liu, Bruce X.B. Yu}
Abstract

Die Erkennung menschlicher Aktivitäten (Human Action Recognition, HAR) in RGB-D-Videos wurde seit der Verfügbarkeit kostengünstiger Tiefensensoren umfassend untersucht. Derzeit haben einmodale Ansätze (z. B. auf Skelett- oder RGB-Videodaten basierende Methoden) dank zunehmend größerer Datensätze erhebliche Fortschritte erzielt. Multimodale Methoden, insbesondere solche mit Modell-Level-Fusion, wurden hingegen bisher selten erforscht. In diesem Artikel stellen wir ein modellbasiertes multimodales Netzwerk (MMNet) vor, das Skelett- und RGB-Modaliäten mittels eines modellbasierten Ansatzes fusioniert. Ziel unserer Methode ist es, die Genauigkeit der Ensemble-Erkennung durch effektive Nutzung sich gegenseitig ergänzender Informationen aus verschiedenen Datensmodalitäten zu verbessern. Bei der modellbasierten Fusionsstrategie nutzen wir ein räumlich-zeitliches Graphen-Convolutional-Netzwerk (spatiotemporal graph convolution network) für die Skelett-Modality, um Aufmerksamkeitsgewichte zu lernen, die anschließend an das Netzwerk der RGB-Modality übertragen werden. Umfassende Experimente wurden auf fünf Standard-Datensätzen durchgeführt: NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview und Toyota Smarthome. Durch die Aggregation der Ergebnisse mehrerer Modalitäten zeigt sich, dass unsere Methode die state-of-the-art-Ansätze in sechs verschiedenen Evaluierungsprotokollen der fünf Datensätze übertrifft. Damit kann das vorgeschlagene MMNet effektiv sich gegenseitig ergänzende Merkmale in verschiedenen RGB-D-Videomodalitäten erfassen und für die HAR diskriminativere Merkmale bereitstellen. Zudem haben wir unser MMNet auf einem RGB-Videodatensatz, dem Kinetics 400, getestet, der mehr Outdoor-Aktionen enthält, wobei konsistente Ergebnisse mit denen der RGB-D-Videodatensätze erzielt wurden.

MMNet: Ein modellbasiertes multimodales Netzwerk zur Menschlichen Aktenerkennung in RGB-D-Videos | Neueste Forschungsarbeiten | HyperAI