Tiefes Lernen für die Handsignalerkennung auf skelettalen Daten

In diesem Artikel stellen wir einen neuen Ansatz zur 3D-Handgestenerkennung vor, der auf einem tiefen Lernmodell basiert. Wir führen ein neuartiges konvolutionales Neuronales Netzwerk (Convolutional Neural Network, CNN) ein, bei dem Sequenzen der Positionen von Hand-Skelett-Gelenken durch parallele Faltungen verarbeitet werden. Anschließend untersuchen wir die Leistungsfähigkeit dieses Modells bei der Klassifikation von Handgestensequenzen. Unser Modell nutzt ausschließlich Daten zu Hand-Skelett-Positionen und keine Tiefenbilder. Experimentelle Ergebnisse zeigen, dass unser Ansatz im Vergleich zu anderen veröffentlichten Methoden eine state-of-the-art-Leistung auf einem anspruchsvollen Datensatz (DHG-Datensatz aus dem SHREC 2017 3D-Shape-Retrieval-Wettbewerb) erzielt. Für den Fall mit 14 Gestenklassen erreicht unser Modell eine Klassifikationsgenauigkeit von 91,28 %, bei 28 Gestenklassen beträgt die Genauigkeit 84,35 %.