Explizites Okklusionsreasoning für die 3D-Pose-Schätzung von mehreren Personen

Die Okklusion stellt eine große Bedrohung für die monokulare Mehrpersonen-3D-Pose-Schätzung dar aufgrund der großen Variabilität in Bezug auf Form, Erscheinungsbild und Position von Okkludierenden Objekten. Obwohl bestehende Methoden versuchen, Okklusionen durch Pose-Priors/Restriktionen, Datenverstärkung oder implizites Schließen zu bewältigen, scheitern sie immer noch an der Generalisierung auf unbekannte Poses oder Okklusionsfälle und können bei der Anwesenheit mehrerer Personen große Fehler machen. Inspiriert von der bemerkenswerten Fähigkeit von Menschen, verdeckte Gelenke aus sichtbaren Hinweisen abzuleiten, entwickeln wir eine Methode, um diesen Prozess explizit zu modellieren, was die bodengestützte Mehrpersonen-Pose-Schätzung erheblich verbessert – sowohl mit als auch ohne Okklusionen. Zunächst gliedern wir die Aufgabe in zwei Teilprobleme: die Detektion sichtbarer Keypoints und das Schließen über verdeckte Keypoints. Hierfür schlagen wir ein Netzwerk vor, das tiefgehend überwacht wird und als Deeply Supervised Encoder Distillation (DSED) bezeichnet wird, um das zweite Teilproblem zu lösen. Um unser Modell zu trainieren, schlagen wir einen Skelettgesteuerten Ansatz zur menschlichen Formanpassung (Skeleton-guided human Shape Fitting, SSF) vor, um Pseudo-Okklusionslabels in vorhandenen Datensätzen zu generieren und damit explizites Okklussionsschließen zu ermöglichen. Experimente zeigen, dass das explizite Lernen von Okklusionen die Pose-Schätzung verbessert. Darüber hinaus ermöglicht es uns die Nutzung von informationsreichen Merkmalen sichtbarer Gelenke, um verdeckte Gelenke genauer abzuleiten. Unsere Methode übertrifft sowohl state-of-the-art top-down- als auch bottom-up-Methoden in mehreren Benchmarks.