Fusion von Haltungs- und Positionsrepräsentationen für die Handsignaturerkennung basierend auf Punktwolken
Die Handsignalerkennung kann von der direkten Verarbeitung von 3D-Punktwolkensequenzen profitieren, da diese reichhaltige geometrische Informationen enthalten und die Lernung ausdrucksstarker räumlich-zeitlicher Merkmale ermöglichen. Derzeit eingesetzte Einzelstrom-Modelle können jedoch nicht ausreichend mehrskalige Merkmale erfassen, die sowohl feinkörnige lokale Haltungsvariationen als auch globale Handbewegungen umfassen. Daher schlagen wir ein neuartiges Doppelstrom-Modell vor, das die Lernung lokaler und globaler Merkmale entkoppelt. Diese werden schließlich in einem LSTM zur zeitlichen Modellierung zusammengeführt. Um sicherzustellen, dass der globale und der lokale Strom ergänzende Position- und Haltungsmerkmale erfassen, schlagen wir die Verwendung unterschiedlicher 3D-Lernarchitekturen in beiden Strömen vor. Insbesondere überzeugen state-of-the-art-Punktwolken-Netzwerke in dem lokalen Strom bei der Erfassung feiner Haltungsvariationen aus rohen Punktwolken. Zur Verfolgung von Handbewegungen im globalen Strom kombinieren wir eine Kodierung mit residualen Basis-Punktmengen mit einem vollständig verbundenen DenseNet. Wir evaluieren die Methode anhand der Datensätze Shrec'17 und DHG und erzielen dabei state-of-the-art-Ergebnisse bei reduziertem Rechenaufwand. Der Quellcode ist unter https://github.com/multimodallearning/hand-gesture-posture-position verfügbar.