HMOR: Hierarchische Mehrpersonen-Ordnungsbeziehungen für die monokulare Mehrpersonen-3D-Pose-Schätzung

Bemerkenswerte Fortschritte wurden bei der 3D-Pose-Schätzung von Menschen mittels einer monokularen RGB-Kamera erzielt. Allerdings haben nur wenige Studien den 3D-Mehrpersonenfall untersucht. In dieser Arbeit versuchen wir, den Mangel an einer globalen Perspektive der top-down Ansätze zu beheben, indem wir eine neue Form der Überwachung – Hierarchische Mehrpersonen-Ordinationsbeziehungen (HMOR) – einführen. Die HMOR kodieren Interaktionsinformationen als ordinationale Beziehungen von Tiefen und Winkeln hierarchisch, was sowohl die semantische Information auf Körperteil- und Gelenk-Ebene erfassen als auch die globale Konsistenz gleichzeitig gewährleisten kann. In unserem Ansatz wird ein integriertes top-down Modell entwickelt, das diese ordinationale Beziehungen im Lernprozess nutzt. Das integrierte Modell schätzt simultan menschliche Begrenzungsrahmen, menschliche Tiefen und wurzelrelative 3D-Posen, wobei eine grob-zu-fein Architektur zur Verbesserung der Genauigkeit der Tiefenschätzung eingesetzt wird. Die vorgeschlagene Methode übertrifft signifikant die aktuellen Standesder Technik-Methoden in öffentlich verfügbaren Mehrpersonen-3D-Pose-Datensätzen. Neben der überlegenen Leistungsfähigkeit verursacht unsere Methode geringere Rechenkomplexität und benötigt weniger Modellparameter.