HyperAIHyperAI

Command Palette

Search for a command to run...

Ein dicht-sparse ergänzender Netzwerkansatz für die menschliche Aktenerkennung basierend auf RGB- und Skelettmodalitäten

Qin Cheng,Jun Cheng,Zhen Liu,Ziliang Ren,Jianming Liu

Zusammenfassung

Die Anfälligkeit von RGB-basierten Ansätzen zur menschlichen Aktionserkennung in komplexen Umgebungen und variablen Szenen kann durch die Verwendung der Skelettmodality kompensiert werden. Daher gewinnen Methoden zur Aktionserkennung, die RGB- und Skelettmodality fusionieren, zunehmend an Aufmerksamkeit. Allerdings bleibt die Erkennungsgenauigkeit bestehender Ansätze aufgrund unzureichend optimierter Abtast-, Modellierungs- und Fusionsstrategien weiterhin unbefriedigend, wobei zudem ein hoher Rechenaufwand entsteht. In diesem Paper stellen wir ein Dicht-Sparse-Komplementäres Netzwerk (DSCNet) vor, das darauf abzielt, die komplementären Informationen von RGB- und Skelettmodality mit geringem Rechenaufwand zu nutzen, um eine konkurrenzfähige Erkennungsleistung zu erzielen. Konkret setzen wir zunächst dichte und sparsame Abtaststrategien je nach Stärken der RGB- und Skelettmodality ein. Anschließend nutzen wir das Skelett als Leitinformation, um die relevanten aktiven Regionen der Personen in den RGB-Bildern zu segmentieren, wodurch der Hintergrundinterferenz erheblich reduziert wird. Zudem wird ein Modul zur Extraktion kurzfristiger Bewegung (Short-Term Motion Extraction Module, STMEM) vorgeschlagen, das die dicht abgetasteten RGB-Bilder vor der Eingabe in das Hauptnetzwerk komprimiert, um einen Anstieg des Rechenaufwands zu vermeiden. Des Weiteren wird ein sparsam strukturiertes mehrskaliges räumlich-zeitliches Faltungsneuronales Netzwerk (Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network, Sparse-MSSTNet) entworfen, um sparsame Skelettinformationen effizient zu modellieren. Umfangreiche Experimente zeigen, dass unsere Methode die komplementären Informationen von RGB- und Skelettmodality effektiv kombiniert und die Erkennungsgenauigkeit verbessert. Das DSCNet erreicht auf den Datensätzen NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, UAV-human, IKEA ASM und Northwest-UCLA eine konkurrenzfähige Leistung mit deutlich geringerem Rechenaufwand im Vergleich zu bestehenden Methoden. Der Quellcode ist unter https://github.com/Maxchengqin/DSCNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp