HyperAIHyperAI
vor 2 Monaten

Wiederholung der Skelettbasierten Aktionserkennung

Duan, Haodong ; Zhao, Yue ; Chen, Kai ; Lin, Dahua ; Dai, Bo
Wiederholung der Skelettbasierten Aktionserkennung
Abstract

Das menschliche Skelett, als kompakte Darstellung menschlicher Bewegungen, hat in den letzten Jahren zunehmend an Bedeutung gewonnen. Viele skeletonbasierte Methoden zur Aktionserkennung verwenden Graph Convolutional Networks (GCN), um Merkmale auf Basis des menschlichen Skeletts zu extrahieren. Trotz der positiven Ergebnisse früherer Arbeiten sind GCN-basierte Methoden in Bezug auf Robustheit, Interoperabilität und Skalierbarkeit eingeschränkt. In dieser Arbeit schlagen wir PoseC3D vor, einen neuen Ansatz zur skeletonbasierten Aktionserkennung, der sich auf einen 3D-Heatmap-Stack statt auf eine Graphsequenz als grundlegende Darstellung des menschlichen Skeletts stützt. Im Vergleich zu GCN-basierten Methoden ist PoseC3D effektiver im Lernen von räumlich-zeitlichen Merkmalen, robuster gegenüber Schätzfehlern in der Pose und verallgemeinert besser in cross-dataset-Szenarien. Zudem kann PoseC3D Mehrpersonensituationen ohne zusätzlichen Rechenaufwand bewältigen, und seine Merkmale können leicht mit anderen Modalitäten in frühen Fusionsschritten integriert werden, was einen großen Gestaltungsspielraum bietet, um die Leistung weiter zu verbessern. Bei vier anspruchsvollen Datensätzen erzielt PoseC3D konsistent überlegene Ergebnisse, sowohl allein bei der Verwendung von Skelettdaten als auch in Kombination mit dem RGB-Modus.