Bewegliche Poselets: Eine diskriminative und interpretierbare Darstellung skelettaler Bewegung für die Aktenerkennung

Gegeben ein Video oder eine Zeitreihe von Skelett-Daten führen Action Recognition-Systeme eine Klassifikation basierend auf Signalen wie Bewegung, Erscheinungsbild und Pose durch. In den letzten zehn Jahren wurden Aktionen typischerweise mit niedrigstufigen Merkmalsrepräsentationen wie Bag of Features modelliert. Neuere Arbeiten haben gezeigt, dass mittelstufige Darstellungen, die Bewegungen einzelner Körperteile (z. B. Hand bewegt sich nach vorne) modellieren, äußerst wirksam sein können. Allerdings sind diese mittelstufigen Merkmale in der Regel handgebastelt, und das Wörterbuch repräsentativer Merkmale wird mit ad-hoc-Heuristiken gelernt. Obwohl automatische Merkmalslernmethoden wie überwachtes sparses Dictionary Learning oder neuronale Netze eingesetzt werden können, um Merkmalsrepräsentation und Aktionklassifikatoren gemeinsam zu lernen, sind die resultierenden Merkmale in der Regel nicht interpretierbar. Im Gegensatz dazu zielt unser Ziel darauf ab, einen prinzipienbasierten Rahmen für das Merkmalslernen zu entwickeln, um diskriminative und interpretierbare Bewegungsmuster des Skeletts für die Aktionserkennung zu erlernen. Dazu schlagen wir ein neuartiges, körperteilbasiertes Merkmal namens Moving Poselet vor, das einer spezifischen Körperteil-Konfiguration entspricht, die eine bestimmte Bewegung ausführt. Außerdem präsentieren wir einen einfachen Algorithmus zur gemeinsamen Lernung von Moving Poselets und Aktionklassifikatoren. Experimente auf den Datensätzen MSR Action3D, MSR DailyActivity3D und Berkeley MHAD zeigen, dass unser zweischichtiges Modell andere zweischichtige Modelle, die auf handgebastelten Merkmalen basieren, übertrifft und Ergebnisse erzielt, die mit denen neuerer mehrschichtiger hierarchischer rekurrenter neuronaler Netze (Hierarchical Recurrent Neural Network, HRNN) vergleichbar sind, die mehrere Schichten von RNN nutzen, um die Hierarchie des menschlichen Körpers zu modellieren.