Ko-Existenzmerkmalslernen aus Skelettdaten für die Aktionserkennung und -detektion mit hierarchischer Aggregation

Die Skelettbasierte Erkennung menschlicher Aktivitäten hat in jüngerer Zeit mit der Verfügbarkeit umfangreicher Skelett-Datensätze zunehmend an Bedeutung gewonnen. Die entscheidenden Faktoren für diese Aufgabe liegen in zwei Aspekten: der Intra-Frame-Darstellung für die simultane Vorkommen von Gelenken und der Inter-Frame-Darstellung für die zeitliche Entwicklung von Skeletten. In dieser Arbeit schlagen wir einen end-to-end Faltungsbasierten Co-Occurrence-Feature-Lernrahmen vor. Die Co-Occurrence-Features werden mit einer hierarchischen Methodik gelernt, bei der verschiedene Ebenen kontextueller Informationen allmählich zusammengeführt werden. Zunächst wird die Punkt-Ebene-Information jedes Gelenks unabhängig kodiert. Anschließend werden sie sowohl im räumlichen als auch im zeitlichen Bereich zu semantischen Darstellungen zusammengestellt. Insbesondere führen wir ein globales räumliches Aggregationsverfahren ein, das es ermöglicht, überlegene Gelenk-Co-Occurrence-Features gegenüber lokaler Aggregation zu lernen. Des Weiteren werden rohe Skelett-Koordinaten sowie ihre zeitliche Differenz in einem Zweistromparadigma integriert. Experimente zeigen, dass unser Ansatz konsistent bessere Ergebnisse als andere Standesder Kunst auf Benchmarks zur Aktionserkennung und -detektion wie NTU RGB+D, SBU Kinect Interaction und PKU-MMD erzielt.