3D-Mensch-Pose-Schätzung in RGBD-Bildern für das Lernen von Roboteraufgaben

Wir schlagen einen Ansatz vor, um die 3D-Menschpose in realen Weltmaßeinheiten aus einem einzelnen RGBD-Bild zu schätzen, und zeigen, dass er die Leistungsfähigkeit von monokularen 3D-Pose-Schätzverfahren sowohl aus Farbbildern als auch ausschließlich aus Tiefenbildern übertrifft. Unser Ansatz basiert auf robusten Detektoren für menschliche Schlüsselpunkte in Farbbildern und integriert Tiefeninformationen zur Transformation in den 3D-Raum. Wir kombinieren das System mit unserem Lernen-durch-Demonstration-Framework, um einen Service-Roboter ohne Markierungen zu steuern. Experimente in realen Umgebungen demonstrieren, dass unser Ansatz es einem PR2-Roboter ermöglicht, Manipulationsaktionen nachzubilden, die von einem menschlichen Lehrer beobachtet wurden.