Pose-Schätzung durch ein graphisches Modell mit bildabhängigen paarweisen Beziehungen

Wir präsentieren eine Methode zur Schätzung der artikulierten menschlichen Pose aus einem einzelnen statischen Bild, basierend auf einem graphischen Modell mit neuartigen paarweisen Beziehungen, die sich an lokale Bildmessungen anpassen. Genauer gesagt definieren wir ein graphisches Modell für die menschliche Pose, das den Vorteil nutzt, dass lokale Bildmessungen sowohl verwendet werden können, um Teile (oder Gelenke) zu erkennen, als auch um die räumlichen Beziehungen zwischen ihnen vorherzusagen (Bildabhängige paarweise Beziehungen [Image Dependent Pairwise Relations]). Diese räumlichen Beziehungen werden durch ein Mischmodell dargestellt. Wir verwenden Tiefgeschichtete Faltungsneuronale Netze (Deep Convolutional Neural Networks [DCNNs]), um bedingte Wahrscheinlichkeiten für das Vorhandensein von Teilen und ihre räumlichen Beziehungen in Bildausschnitten zu lernen. Dadurch kombiniert unser Modell die repräsentative Flexibilität von graphischen Modellen mit der Effizienz und statistischen Stärke von DCNNs. Unsere Methode übertrifft die aktuellen Standesder Technik-Methoden erheblich auf den Datensätzen LSP und FLIC und zeigt auch ohne Training sehr gute Ergebnisse auf dem Buffy-Datensatz.