DeepGRU: Tiefes Gestenerkennungsinstrument

Wir schlagen DeepGRU vor, ein neues end-to-end Tiefennetzmodell, das auf den jüngsten Entwicklungen im Bereich des tiefen Lernens für Gestenerkennung und Aktionserkennung basiert und sowohl schlank als auch geräteunabhängig ist. DeepGRU verwendet nur rohe Skelett-, Pose- oder Vektordaten, ist schnell zu verstehen, zu implementieren und zu trainieren und erreicht dennoch Stand-des-Wissens-Ergebnisse bei anspruchsvollen Datensätzen. Im Zentrum unserer Methode stehen eine Reihe von gestapelten Gated Recurrent Units (GRUs), zwei vollständig verbundene Schichten und ein neuartiges globales Aufmerksamkeitsmodell. Wir evaluieren unsere Methode anhand sieben öffentlich zugänglicher Datensätze, die unterschiedliche Anzahlen von Proben umfassen und einen breiten Spektrum an Interaktionen abdecken (vollkörperliche Bewegungen, Mehrspielerinteraktionen, Handgesten usw.). In allen Fällen außer einem übertreffen wir die Stand-des-Wissens-Posebasierten Methoden. Zum Beispiel erreichen wir eine Erkennungsrate von 84,9 % und 92,3 % bei den cross-subject- und cross-view-Tests des NTU RGB+D-Datensatzes sowie eine Erkennungsrate von 100 % beim UT-Kinect-Datensatz. Während DeepGRU gut bei großen Datensätzen mit vielen Trainingsproben abschneidet, zeigen wir, dass es auch bei geringer Anzahl von Trainingsdaten – mit nur vier Proben pro Klasse – traditionelle Methoden übertrifft, die speziell für kleine Trainingsmengen entwickelt wurden. Schließlich demonstrieren wir, dass unser Verfahren selbst ohne leistungsfähige Hardware und ausschließlich unter Verwendung der CPU in weniger als zehn Minuten auf kleinen Datensätzen trainiert werden kann. Dies macht es zur attraktiven Wahl für schnelles Prototyping und Entwicklung von Anwendungen.