Anerkennung menschlicher Aktionen durch Darstellung von 3D-Skeletten als Punkte in einer Lie-Gruppe
Kürzlich eingeführte kostengünstige Tiefensensoren, kombiniert mit dem Echtzeit-Skelett-Schätzungsalgorithmus von Shotton et al., haben ein erneuertes Interesse an der auf Skeletten basierenden menschlichen Aktionserkennung geweckt. Die meisten bestehenden auf Skeletten basierenden Ansätze verwenden entweder die Gelenkpositionen oder die Gelenkwinkel zur Darstellung eines menschlichen Skeletts. In diesem Artikel stellen wir eine neue skelettale Darstellung vor, die die 3D-geometrischen Beziehungen zwischen verschiedenen Körperteilen explizit durch Rotationen und Translationen im 3D-Raum modelliert. Da 3D-starre Körpermotionen Elemente der speziellen euklidischen Gruppe SE(3) sind, liegt die vorgeschlagene skelettale Darstellung im Lie-Gruppen-Produkt SE(3) × ... × SE(3), das eine gekrümmte Mannigfaltigkeit darstellt. Unter Verwendung dieser Darstellung können menschliche Aktionen als Kurven in dieser Lie-Gruppe modelliert werden. Da die Klassifikation solcher Kurven in der Lie-Gruppe eine anspruchsvolle Aufgabe darstellt, projizieren wir die Aktionskurven aus der Lie-Gruppe in ihre Lie-Algebra, die einen Vektorraum bildet. Anschließend führen wir die Klassifikation mittels einer Kombination aus dynamischer Zeitverzerrung (Dynamic Time Warping), Fourier-zeitlicher Pyramidenrepräsentation und linearer SVM durch. Experimentelle Ergebnisse auf drei Aktionsdatensätzen zeigen, dass die vorgeschlagene Darstellung gegenüber vielen bestehenden skelettalen Repräsentationen überlegen ist. Zudem erreicht der vorgeschlagene Ansatz eine bessere Leistung als verschiedene aktuelle State-of-the-Art-Methoden zur auf Skeletten basierenden menschlichen Aktionserkennung.