Hierarchische rekurrente neuronale Netzwerk für die aktionsbasierte Anerkennung auf Basis von Skeletten
Menschliche Handlungen können durch die Trajektorien von Gelenken des Skeletts dargestellt werden. Traditionelle Methoden modellieren in der Regel die räumliche Struktur und die zeitliche Dynamik des menschlichen Skeletts mit handgefertigten Merkmalen und erkennen menschliche Aktionen mittels gut konzipierter Klassifikatoren. In diesem Artikel berücksichtigen wir, dass rekurrente neuronale Netze (RNN) die langfristigen Kontextinformationen zeitlicher Sequenzen gut modellieren können, und schlagen ein end-to-end hierarchisches RNN für die Aktionserkennung basierend auf Skelettinformationen vor. Anstatt das gesamte Skelett als Eingabe zu verwenden, unterteilen wir das menschliche Skelett gemäß der physiologischen Struktur in fünf Teile und speisen diese jeweils separat in fünf Unternetze ein. Mit zunehmender Schichttiefe werden die von den Unternetzen extrahierten Darstellungen hierarchisch fusioniert, um die Eingaben für die höheren Schichten zu bilden. Die endgültigen Darstellungen der Skelettsequenzen werden in ein einlagiges Perzeptron eingespeist, und die zeitlich akkumulierte Ausgabe des Perzeptrons bildet die endgültige Entscheidung. Wir vergleichen unsere Methode mit fünf weiteren tiefen RNN-Architekturen, die aus unserem Modell abgeleitet wurden, um die Wirksamkeit des vorgeschlagenen Netzwerks zu überprüfen, sowie mit mehreren anderen Ansätzen auf drei öffentlich verfügbaren Datensätzen. Experimentelle Ergebnisse zeigen, dass unser Modell eine state-of-the-art-Leistung mit hoher rechnerischer Effizienz erzielt.