Region Ensemble Network: Verbesserung des Faltungsnetzes für die Schätzung von Handpose

Die Schätzung von Handhaltungen aus monoökularen Tiefenbildern ist ein wichtiges und herausforderndes Problem für die Mensch-Computer-Interaktion. Kürzlich wurden tiefe Faltungsnetze (ConvNet) mit komplexer Architektur eingesetzt, um dieses Problem zu lösen, jedoch ist der Fortschritt gegenüber traditionellen Methoden nicht so offensichtlich. Um die Leistung der direkten 3D-Koordinatenregression zu verbessern, schlagen wir ein baumstrukturiertes Region Ensemble Network (REN) vor, das die Ausgänge des Faltungsprozesses in Regionen unterteilt und die Ergebnisse mehrerer Regressoren in jeder Region integriert. Im Vergleich zu Ensemblemodellen aus mehreren Modellen wird unser Modell vollständig end-to-end trainiert. Die experimentellen Ergebnisse zeigen, dass unser Ansatz den besten Leistungsgrad unter den aktuellen Stand der Technik auf zwei öffentlichen Datensätzen erreicht.