PREDICT & CLUSTER: Unüberwachte Aktionserkennung auf Basis von Skelettdaten

Wir schlagen ein neues System für die unüberwachte Skelettbasierte Aktionserkennung vor. Das System ordnet Sequenzen von Körperschlüsselpunkten, die während verschiedener Bewegungen erfasst werden, Aktionen zu. Unser System basiert auf einem Encoder-Decoder-Recurrent Neural Network (RNN), wobei der Encoder eine trennbare Merkmalsrepräsentation in seinen verborgenen Zuständen lernt, indem das Modell für eine Vorhersageaufgabe trainiert wird. Wir zeigen, dass bei einer solchen unüberwachten Trainierung der Decoder und der Encoder ihre verborgenen Zustände selbstorganisieren, sodass ähnliche Bewegungen in denselben Cluster und unterschiedliche Bewegungen in entfernte Clustern gruppiert werden. Aktuelle state-of-the-art Methoden zur Aktionserkennung sind stark überwacht, d.h., sie basieren auf der Bereitstellung von Labels für das Training. Es wurden auch unüberwachte Methoden vorgeschlagen, diese erfordern jedoch Kamera- und Tiefeneingaben (RGB+D) in jedem Zeitschritt. Im Gegensatz dazu ist unser System vollständig unüberwacht, benötigt keine Aktionlabels in irgendeiner Phase und kann ausschließlich mit Körperschlüsselpunkteingaben arbeiten. Darüber hinaus kann die Methode mit verschiedenen Dimensionen von Körperschlüsselpunkten (2D oder 3D) arbeiten und zusätzliche Hinweise zur Beschreibung von Bewegungen berücksichtigen. Wir evaluieren unser System anhand dreier umfangreicher Benchmarks für Aktionserkennung mit unterschiedlicher Anzahl von Aktionen und Beispielen. Unsere Ergebnisse übertreffen frühere unüberwachte Skelettbasierte Methoden sowie unüberwachte RGB+D-basierte Methoden bei cross-view Tests und weisen bei unüberwachtem Training eine vergleichbare Leistung wie überwachte Skelettbasierte Aktionserkennungsverfahren auf.