Skelettbasierte Aktionserkennung unter Verwendung eines raumzeitlichen LSTM-Netzwerks mit Trust-Gates

Die Skelettbasierte Erkennung menschlicher Aktivitäten hat in den letzten Jahren viel Forschungsinteresse geweckt. Kürzliche Arbeiten haben versucht, rekurrente Neuronale Netze zu nutzen, um die zeitlichen Abhängigkeiten zwischen den 3D-Positionskonfigurationen der menschlichen Körpergelenke zu modellieren, um so eine bessere Analyse menschlicher Aktivitäten in den Skelett-Daten zu ermöglichen. Die vorgeschlagene Arbeit erweitert diese Idee sowohl auf den räumlichen als auch auf den zeitlichen Bereich, um die verborgenen Quellen von aktionsbezogenen Informationen innerhalb der menschlichen Skelettsequenzen gleichzeitig in beiden Bereichen besser zu analysieren. Basierend auf der bildhaften Struktur der Skelett-Daten des Kinect wird außerdem ein effektiver baumstrukturierter Traversierungsrahmen vorgeschlagen. Um mit dem Rauschen in den Skelett-Daten umzugehen, wird ein neuer Gating-Mechanismus innerhalb des LSTM-Moduls eingeführt, durch den das Netzwerk die Zuverlässigkeit der sequentiellen Daten lernen kann und entsprechend den Einfluss der Eingangsdaten auf das Aktualisierungsverfahren der langfristigen Kontextdarstellung im Speicherzellen des Units anpassen kann. Darüber hinaus stellen wir in dieser Arbeit eine neuartige multimodale Merkmalsfusionss Strategie innerhalb der LSTM-Unit vor. Die umfassenden experimentellen Ergebnisse auf sieben anspruchsvollen Benchmark-Datensätzen für die Erkennung menschlicher Aktivitäten belegen die Effektivität der vorgeschlagenen Methode.