View-adaptive Rekurrente Neuronale Netze für die hochleistungsfähige Erkennung menschlicher Bewegungen aus Skelettdaten

Die Erkennung menschlicher Aktionen auf der Grundlage von Skelettdaten hat in letzter Zeit aufgrund der Popularität von 3D-Skelettdaten zunehmendes Interesse gefunden. Eine der Hauptausforderungen besteht in den großen Sichtunterschieden bei erfassten menschlichen Aktionen. Wir schlagen ein neues Verfahren zur Sichtanpassung vor, das es ermöglicht, Beobachtungsperspektiven während des Auftretens einer Aktion automatisch zu regulieren. Anstatt die Skelette nach einem vom Menschen definierten Vorkriterium neu zu positionieren, entwickeln wir ein sichtanpassendes rekurrentes neuronales Netzwerk (RNN) mit LSTM-Architektur, das es dem Netzwerk ermöglicht, sich selbstständig von Anfang bis Ende an die am besten geeigneten Beobachtungsperspektiven anzupassen. Ausführliche Experimentanalysen zeigen, dass das vorgeschlagene sichtanpassende RNN-Modell (1) die Skelette verschiedener Perspektiven in viel konsistenteren Blickwinkeln transformiert und (2) die Kontinuität der Aktion beibehält, anstatt jedes Bild in dieselbe Position mit derselben Körperrichtung zu transformieren. Unser Modell erreicht erhebliche Verbesserungen im Vergleich zu den bislang besten Ansätzen auf drei Benchmark-Datensätzen.