HyperAIHyperAI
vor 12 Tagen

Lernen von Shape-Motion-Darstellungen aus einem geometrischen Algebra-Spatio-Temporal-Modell für aktionsbasierte Erkennung auf der Grundlage von Skeletten

{Xing Liu, Rongjie Xia, Qinghua Huang, Yanshan Li}
Abstract

Die aktionsbasierte Erkennung auf der Grundlage von Skelettdaten wird weithin in intelligenten Videoüberwachungssystemen und der Analyse menschlichen Verhaltens eingesetzt. Frühere Arbeiten haben erfolgreich konvolutionale neuronale Netze (CNN) eingesetzt, um räumlich-zeitliche Merkmale von Skelettsequenzen zu lernen. Allerdings berücksichtigen diese Ansätze lediglich die Koordinaten einzelner Gelenke und ignorieren dabei die räumlichen Beziehungen zwischen den Gelenken sowie die explizite Erfassung von Bewegungsrepräsentationen. Um diese Probleme zu lösen, schlagen wir eine effektive Methode zur Lernung umfassender Darstellungen aus Skelettsequenzen mittels geometrischer Algebra vor. Zunächst wird ein auf der Frontorientierung basierendes räumlich-zeitliches Modell konstruiert, das die räumliche Konfiguration und die zeitliche Dynamik von Skelettsequenzen repräsentiert und dabei eine hohe Robustheit gegenüber Blickwinkelvariationen aufweist. Anschließend werden Form-Bewegungs-Präsentationen erlernt, die sich gegenseitig ergänzen, um menschliche Aktivitäten umfassend zu beschreiben. Schließlich wird ein Multi-Stream-CNN-Modell eingesetzt, um tiefgehende Merkmale aus den komplementären Form-Bewegungs-Darstellungen zu extrahieren und zu fusionieren. Experimentelle Ergebnisse auf den Datensätzen NTU RGB+D und Northwestern-UCLA bestätigen konsistent die Überlegenheit unserer Methode.