SMAP: Einstufige Mehrpersonen-Abschätzung der absoluten 3D-Haltung

Die Wiederherstellung von 3D-Posen mehrerer Personen mit absoluten Skalen aus einem einzelnen RGB-Bild ist aufgrund der inhärenten Tiefen- und Skalenschwierigkeiten bei einer einzigen Sichtweise eine herausfordernde Aufgabe. Die Bewältigung dieser Schwierigkeiten erfordert die Aggregation verschiedener Hinweise über das gesamte Bild, wie Körpersizes, Szeneaufbauten und Interpersonenbeziehungen. Die meisten bisherigen Methoden verwenden jedoch ein Top-Down-Verfahren, das zunächst eine 2D-Pose-Detektion durchführt und dann für jede erkannte Person einzeln die 3D-Pose und -Skala regressiert, wobei globale kontextuelle Hinweise ignoriert werden. In diesem Artikel schlagen wir ein neues System vor, das zunächst eine Reihe von 2.5D-Darstellungen von Körpergliedern regressiert und dann auf Basis dieser 2.5D-Darstellungen mit einem tiefenbewussten Gliedmaßenassoziationalgorithmus die absoluten 3D-Posen rekonstruiert. Ein solches Bottom-Up-Verfahren in einem Schritt ermöglicht es dem System, besser die interpersonellen Tiefenbeziehungen zu lernen und zu begründen, was sowohl die 3D- als auch die 2D-Pose-Schätzung verbessert. Die Experimente zeigen, dass der vorgeschlagene Ansatz den Stand der Technik auf den Datensätzen CMU Panoptic und MuPoTS-3D erreicht und für Videos im freien Feld anwendbar ist.