HyperAIHyperAI
vor 17 Tagen

Ein dicht-sparse ergänzender Netzwerkansatz für die menschliche Aktenerkennung basierend auf RGB- und Skelettmodalitäten

{Qin Cheng,Jun Cheng,Zhen Liu,Ziliang Ren,Jianming Liu}
Abstract

Die Anfälligkeit von RGB-basierten Ansätzen zur menschlichen Aktionserkennung in komplexen Umgebungen und variablen Szenen kann durch die Verwendung der Skelettmodality kompensiert werden. Daher gewinnen Methoden zur Aktionserkennung, die RGB- und Skelettmodality fusionieren, zunehmend an Aufmerksamkeit. Allerdings bleibt die Erkennungsgenauigkeit bestehender Ansätze aufgrund unzureichend optimierter Abtast-, Modellierungs- und Fusionsstrategien weiterhin unbefriedigend, wobei zudem ein hoher Rechenaufwand entsteht. In diesem Paper stellen wir ein Dicht-Sparse-Komplementäres Netzwerk (DSCNet) vor, das darauf abzielt, die komplementären Informationen von RGB- und Skelettmodality mit geringem Rechenaufwand zu nutzen, um eine konkurrenzfähige Erkennungsleistung zu erzielen. Konkret setzen wir zunächst dichte und sparsame Abtaststrategien je nach Stärken der RGB- und Skelettmodality ein. Anschließend nutzen wir das Skelett als Leitinformation, um die relevanten aktiven Regionen der Personen in den RGB-Bildern zu segmentieren, wodurch der Hintergrundinterferenz erheblich reduziert wird. Zudem wird ein Modul zur Extraktion kurzfristiger Bewegung (Short-Term Motion Extraction Module, STMEM) vorgeschlagen, das die dicht abgetasteten RGB-Bilder vor der Eingabe in das Hauptnetzwerk komprimiert, um einen Anstieg des Rechenaufwands zu vermeiden. Des Weiteren wird ein sparsam strukturiertes mehrskaliges räumlich-zeitliches Faltungsneuronales Netzwerk (Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network, Sparse-MSSTNet) entworfen, um sparsame Skelettinformationen effizient zu modellieren. Umfangreiche Experimente zeigen, dass unsere Methode die komplementären Informationen von RGB- und Skelettmodality effektiv kombiniert und die Erkennungsgenauigkeit verbessert. Das DSCNet erreicht auf den Datensätzen NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, UAV-human, IKEA ASM und Northwest-UCLA eine konkurrenzfähige Leistung mit deutlich geringerem Rechenaufwand im Vergleich zu bestehenden Methoden. Der Quellcode ist unter https://github.com/Maxchengqin/DSCNet verfügbar.