HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

MMNet: Ein modellbasiertes multimodales Netzwerk zur Menschlichen Aktenerkennung in RGB-D-Videos

{Keith C.C. Chan Sheng-hua Zhong Xiang Zhang Yan Liu Bruce X.B. Yu}

Abstract

Die Erkennung menschlicher Aktivitäten (Human Action Recognition, HAR) in RGB-D-Videos wurde seit der Verfügbarkeit kostengünstiger Tiefensensoren umfassend untersucht. Derzeit haben einmodale Ansätze (z. B. auf Skelett- oder RGB-Videodaten basierende Methoden) dank zunehmend größerer Datensätze erhebliche Fortschritte erzielt. Multimodale Methoden, insbesondere solche mit Modell-Level-Fusion, wurden hingegen bisher selten erforscht. In diesem Artikel stellen wir ein modellbasiertes multimodales Netzwerk (MMNet) vor, das Skelett- und RGB-Modaliäten mittels eines modellbasierten Ansatzes fusioniert. Ziel unserer Methode ist es, die Genauigkeit der Ensemble-Erkennung durch effektive Nutzung sich gegenseitig ergänzender Informationen aus verschiedenen Datensmodalitäten zu verbessern. Bei der modellbasierten Fusionsstrategie nutzen wir ein räumlich-zeitliches Graphen-Convolutional-Netzwerk (spatiotemporal graph convolution network) für die Skelett-Modality, um Aufmerksamkeitsgewichte zu lernen, die anschließend an das Netzwerk der RGB-Modality übertragen werden. Umfassende Experimente wurden auf fünf Standard-Datensätzen durchgeführt: NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview und Toyota Smarthome. Durch die Aggregation der Ergebnisse mehrerer Modalitäten zeigt sich, dass unsere Methode die state-of-the-art-Ansätze in sechs verschiedenen Evaluierungsprotokollen der fünf Datensätze übertrifft. Damit kann das vorgeschlagene MMNet effektiv sich gegenseitig ergänzende Merkmale in verschiedenen RGB-D-Videomodalitäten erfassen und für die HAR diskriminativere Merkmale bereitstellen. Zudem haben wir unser MMNet auf einem RGB-Videodatensatz, dem Kinetics 400, getestet, der mehr Outdoor-Aktionen enthält, wobei konsistente Ergebnisse mit denen der RGB-D-Videodatensätze erzielt wurden.

Benchmarks

BenchmarkMethodikMetriken
action-classification-on-toyota-smarthomeMMNet
CS: 70.1
action-recognition-in-videos-on-ntu-rgbdMMNet (RGB + Pose)
Accuracy (CS): 96.0
Accuracy (CV): 98.8
action-recognition-in-videos-on-ntu-rgbd-120MMNet (RGB + Pose)
Accuracy (Cross-Setup): 94.4
Accuracy (Cross-Subject): 92.9
action-recognition-in-videos-on-pku-mmdMMNet
X-Sub: 97.4
X-View: 98.6
skeleton-based-action-recognition-on-n-uclaMMNet (RGB + Pose)
Accuracy: 93.7

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMNet: Ein modellbasiertes multimodales Netzwerk zur Menschlichen Aktenerkennung in RGB-D-Videos | Forschungsarbeiten | HyperAI