Ein Doppelt-Quellen-Ansatz für die 3D-Pose-Schätzung aus einem einzelnen Bild

Eine der größten Herausforderungen bei der 3D-Pose-Schätzung aus einem einzelnen RGB-Bild ist die Erhebung ausreichender Trainingsdaten. Insbesondere ist es praktisch unmöglich, große Mengen an Trainingsdaten zu sammeln, die unbeschränkte Bilder enthalten und mit genauen 3D-Posen annotiert sind. Wir schlagen daher den Einsatz von zwei unabhängigen Trainingsquellen vor. Die erste Quelle besteht aus Bildern mit annotierten 2D-Posen, während die zweite Quelle genaue 3D-Bewegungsaufzeichnungsdaten enthält. Um beide Quellen zu integrieren, schlagen wir einen dualen Ansatz vor, der 2D-Pose-Schätzung mit effizienter und robuster 3D-Pose-Retrieval kombiniert. In unseren Experimenten zeigen wir, dass unser Ansatz erstklassige Ergebnisse erzielt und sogar dann wettbewerbsfähig bleibt, wenn die Skelettstruktur der beiden Quellen erheblich voneinander abweicht.