Command Palette
Search for a command to run...
Zu guten Praktiken für die tiefen 3D-Handpose-Schätzung
Zu guten Praktiken für die tiefen 3D-Handpose-Schätzung
Guo Hengkai Wang Guijin Chen Xinghao Zhang Cairong
Zusammenfassung
Die Schätzung der 3D-Handpose aus einer einzigen Tiefenabbildung ist ein wichtiger und herausfordernder Aspekt der Mensch-Computer-Interaktion. In jüngster Zeit wurden tiefgreifend strukturierte neuronale Netzwerke (ConvNet) mit komplexer Architektur eingesetzt, um dieses Problem anzugehen, doch die Verbesserung gegenüber traditionellen Methoden basierend auf Random Forests ist nicht besonders ausgeprägt. Um bewährte Praktiken auszunutzen und die Leistung der Handpose-Schätzung weiter zu steigern, schlagen wir ein baumartig strukturiertes Region-Ensemble-Netzwerk (Region Ensemble Network, REN) vor, das direkt zur Regressionsanalyse von 3D-Koordinaten eingesetzt wird. Zunächst wird die Ausgabe der letzten Konvolutionsschicht des ConvNet in mehrere Gitterregionen unterteilt. Die Ergebnisse einzelner vollständig verbundener (FC) Regressoren, die jeweils auf den einzelnen Regionen arbeiten, werden dann durch eine zusätzliche FC-Schicht integriert, um die Schätzung durchzuführen. Durch die Anwendung verschiedener Trainingsstrategien, darunter Datenaugmentation und eine glatte L1-Verlustfunktion, kann das vorgeschlagene REN die Leistung des ConvNet erheblich verbessern, um Handgelenke präzise zu lokalisieren. Experimentelle Ergebnisse zeigen, dass unsere Methode auf drei öffentlichen Datensätzen zur Handpose-Schätzung die bestmögliche Leistung im Vergleich zu aktuellen State-of-the-Art-Algorithmen erzielt. Zudem haben wir unsere Methode auch auf die Detektion von Fingerspitzen sowie auf Datensätze zur menschlichen Pose angewendet und dabei eine state-of-the-art Genauigkeit erreicht.