Pose-gesteuertes strukturiertes Regionenensemble-Netzwerk für kaskadierte Handpose-Schätzung

Die Schätzung von Handhaltungen aus einem einzelnen Tiefenbild ist ein wesentliches Thema in der Computer Vision und der Mensch-Computer-Interaktion. Trotz der kürzlich durch Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) geförderten Fortschritte in diesem Bereich bleibt die genaue Schätzung von Handhaltungen ein anspruchsvolles Problem. In dieser Arbeit schlagen wir ein Pose-gesteuertes strukturiertes Regionen-Ensemble-Netzwerk (Pose-REN) vor, um die Leistungsfähigkeit der Handhaltungsschätzung zu verbessern. Die vorgeschlagene Methode extrahiert Regionen aus den Merkmalskarten des Faltungsneuronalen Netzwerks unter Anleitung einer anfänglich geschätzten Pose, wodurch optimale und repräsentative Merkmale für die Handhaltungsschätzung generiert werden. Die extrahierten Merkmalsregionen werden dann hierarchisch nach der Topologie der Handgelenke integriert, indem baumartige vollständige Verbindungen verwendet werden. Eine verfeinerte Schätzung der Handhaltung wird direkt durch das vorgeschlagene Netzwerk regressiert, und die endgültige Handhaltung wird durch Anwendung eines iterativen kaskadierten Verfahrens ermittelt. Umfassende Experimente auf öffentlichen Datensätzen zur Handhaltungsschätzung zeigen, dass unsere vorgeschlagene Methode den aktuellen Stand der Technik übertreffen kann.