Human Activity Recognition: Eine räumlich-zeitliche Bildcodierung dreidimensionaler Skelett-Daten für die Online-Aktionsdetektion
Die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) auf Basis von Skelett-Daten, die aus Videos (z. B. Kinect) oder durch eine Tiefenkamera bereitgestellt werden, stellt ein Problem der Zeitreihenklassifikation dar, bei dem die Behandlung sowohl räumlicher als auch zeitlicher Abhängigkeiten eine entscheidende Aufgabe ist, um eine hohe Erkennungsqualität zu erzielen. Bei der Online-Erkennung menschlicher Aktivitäten ist die Identifizierung des Beginns und des Endes einer Bewegung ein wesentlicher Aspekt, der in einem kontinuierlichen Datenstrom jedoch schwierig sein kann. In dieser Arbeit präsentieren wir eine Methode zur Kodierung von 3D-Skelett-Daten, die ein Bild erzeugt, das sowohl die räumlichen als auch die zeitlichen Abhängigkeiten zwischen den Gelenken bewahrt. Um eine Online-Aktionsdetektion zu ermöglichen, kombinieren wir dieses Kodierungssystem mit einem gleitenden Fenster auf dem kontinuierlichen Datenstrom. Auf diese Weise sind keine Start- oder Stoptimestamps erforderlich, und die Erkennung kann zu jedem beliebigen Zeitpunkt durchgeführt werden. Zur Durchführung der Online-Aktionsdetektion wird ein tiefes Lernverfahren basierend auf einem Convolutional Neural Network (CNN) eingesetzt.