Mehrpersonen-absolute 3D-Pose-Schätzung mit schwacher Tiefenaufnahme

Bei der Schätzung von 3D-Mensch-Posen stellt das Fehlen großer, vielfältiger Datensätze eines der größten Probleme dar. Dies gilt insbesondere für die Schätzung von 3D-Posen mehrerer Personen, wo es nach unserem Wissen nur maschinell generierte Annotationen für das Training gibt. Um dieses Problem zu mildern, stellen wir ein Netzwerk vor, das mit zusätzlichen RGB-D-Bildern in schwach überwachter Weise trainiert werden kann. Aufgrund der Verfügbarkeit günstiger Sensoren sind Videos mit Tiefenkarten weit verbreitet, und unsere Methode kann einen großen, nicht annotierten Datensatz nutzen. Unser Algorithmus ist ein monokulares, mehrpersonen-fähiges absoluter Posen-Schätzer. Wir evaluieren den Algorithmus an mehreren Benchmarks und zeigen eine konsistente Verbesserung der Fehlerquoten. Zudem erreicht unser Modell auf dem MuPoTS-3D-Datensatz deutlich bessere Ergebnisse als der aktuelle Stand der Technik.