Menschliche Pose-Schätzung mittels tiefen Konsens-Votings

In dieser Arbeit betrachten wir das Problem der Schätzungen der menschlichen Körperhaltung aus einem einzelnen Stillbild. Wir schlagen einen neuen Ansatz vor, bei dem jeder Ort im Bild für die Position jedes Schlüsselpunkts (keypoint) abstimmt, indem ein Faltungsneuronales Netz (Convolutional Neural Net) verwendet wird. Das Abstimmungsschema ermöglicht es uns, Informationen aus dem gesamten Bild zu nutzen, anstatt sich auf eine dünn besetzte Menge von Schlüsselpunkt-Positionen zu verlassen. Die Verwendung dichter, mehrfach gerichteter Abstimmungen führt nicht nur zu guten Vorhersagen der Schlüsselpunkte, sondern ermöglicht auch die Berechnung bildabhängiger gemeinsamer Wahrscheinlichkeiten von Schlüsselpunkten durch Betrachtung des konsensbasierten Abstimmungsverfahrens. Dies unterscheidet sich von den meisten bisherigen Methoden, bei denen gemeinsame Wahrscheinlichkeiten aus relativen Schlüsselpunkt-Positionen gelernt werden und unabhängig vom Bild sind. Schließlich kombinieren wir die Abstimmungen der Schlüsselpunkte und die gemeinsamen Wahrscheinlichkeiten, um die optimale Konfiguration der Körperhaltung zu identifizieren. Wir zeigen unsere wettbewerbsfähige Leistung auf den Datensätzen MPII Human Pose und Leeds Sports Pose.