HyperAIHyperAI
vor 2 Monaten

Menschliche Pose-Schätzung durch Faltungs-basierte Teilwärmebildregression

Adrian Bulat; Georgios Tzimiropoulos
Menschliche Pose-Schätzung durch Faltungs-basierte Teilwärmebildregression
Abstract

Dieses Papier behandelt die Schätzung menschlicher Körperhaltungen unter Verwendung von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs). Unser Hauptbeitrag besteht in einer kaskadierten CNN-Architektur, die speziell für das Lernen von Teilkörperteilbeziehungen und räumlichen Kontexten entwickelt wurde und robuste Pose-Schätzungen auch bei starken Teilkörperteilverdeckungen ermöglicht. Zu diesem Zweck schlagen wir eine kaskadierte CNN-Architektur vor, die zunächst eine Detektion durchführt und dann eine Regression.Der erste Teil unserer Kaskade erzeugt Teildetektions-Heatmaps, während der zweite Teil auf diesen Heatmaps eine Regression durchführt. Die Vorteile der vorgeschlagenen Architektur sind vielfältig: Sie leitet das Netzwerk an, sich auf bestimmte Bereiche des Bildes zu konzentrieren, und kodiert effektiv Teilkörperteilbedingungen und -kontexte. Wichtiger noch ist, dass sie effektiv mit Verdeckungen umgehen kann, da die Teildetektions-Heatmaps für verdeckte Teile niedrige Konfidenzwerte liefern. Diese niederigen Werte führen daraufhin dazu, dass der Regressionsanteil unseres Netzwerks sich auf kontextuelle Informationen stützt, um die Position dieser Teile vorherzusagen.Zusätzlich zeigen wir, dass die vorgeschlagene Kaskade flexibel genug ist, um verschiedene CNN-Architekturen sowohl für die Detektion als auch für die Regression nahtlos zu integrieren, einschließlich neuerer Ansätze basierend auf residuellem Lernen. Schließlich illustrieren wir, dass unsere Kaskade Spitzenleistungen auf den Datensätzen MPII und LSP erzielt. Der Quellcode kann unter http://www.cs.nott.ac.uk/~psxab5/ heruntergeladen werden.