Graphbasierte 3D-Multi-Person-Pose-Schätzung unter Verwendung von Multiview-Bildern

Diese Arbeit untersucht die Aufgabe der Schätzung der 3D-Gesten mehrerer Personen aus mehreren kalibrierten Kamerasichtweisen. Im Anschluss an das Top-Down-Paradigma zerlegen wir die Aufgabe in zwei Stufen: Personenlokalisierung und Geste-Schätzung. Beide Stufen werden in einer grob-zu-fein-Methode bearbeitet. Wir schlagen drei auf die jeweilige Aufgabe zugeschnittene Graph-Neuronale Netze zur effektiven Nachrichtenübertragung vor. Für die 3D-Personenlokalisierung verwenden wir zunächst das Multi-view Matching Graph Modul (MMG), um die Assoziation über verschiedene Sichtweisen zu lernen und rohe Personen-Vorschläge zu rekonstruieren. Das Center Refinement Graph Modul (CRG) verfeinert die Ergebnisse anschließend über eine flexible punktbasierte Vorhersage. Für die 3D-Gestenschätzung lernt das Pose Regression Graph Modul (PRG) sowohl die mehransichtige Geometrie als auch die strukturellen Beziehungen zwischen den menschlichen Gelenken. Unser Ansatz erreicht eine state-of-the-art-Leistung auf den Datensätzen CMU Panoptic und Shelf bei signifikant geringerem Rechenaufwand.