Zu guten Praktiken für die tiefe 3D-Handpose-Schätzung

Die Schätzung der 3D-Handposition aus einem einzelnen Tiefenbild ist ein wichtiges und herausforderndes Problem für die Mensch-Computer-Interaktion. Kürzlich wurden tiefe Faltungsnetze (ConvNet) mit komplexer Struktur zur Lösung dieses Problems eingesetzt, jedoch ist der Vorteil gegenüber traditionellen Methoden auf Basis von Zufallswäldern (Random Forest) nicht so offensichtlich. Um bewährte Praktiken zu nutzen und die Leistung bei der Handpositionsbestimmung zu verbessern, schlagen wir ein baumartiges Regionales Ensemble-Netzwerk (REN) vor, das direkt eine 3D-Koordinatenregression durchführt. Dieses Netzwerk unterteilt zunächst die letzten Faltungsausgaben des ConvNets in mehrere Gitterregionen. Die Ergebnisse separater vollständig verbundener (FC) Regressoren für jede Region werden dann durch eine weitere FC-Schicht integriert, um die Schätzung durchzuführen. Durch die Anwendung verschiedener Trainingsstrategien, einschließlich Datenverstärkung und glatter $L_1$-Verlustfunktion, kann das vorgeschlagene REN die Leistung des ConvNets bei der Lokalisierung von Handgelenken erheblich verbessern. Die experimentellen Ergebnisse zeigen, dass unser Ansatz unter den aktuellen Algorithmen auf drei öffentlichen Handpositionsdatensätzen die beste Leistung erzielt. Wir haben unsere Methoden auch für die Fingerkuppenerkennung und Datensätze zur menschlichen Körperhaltung getestet und dabei den Stand der Technik an Genauigkeit erreicht.