Tiefensweep-Regressionswälder zur Schätzung der 3D-Körperhaltung aus Bildern
{Juergen Gall Ilya Kostrikov}
Abstract
Wir behandeln das Problem der Schätzung der 3D-Pose aus monokularen Bildern. Anstatt direkt eine Regression von Bildmerkmalen auf die vollständige Pose zu lernen, schätzen wir die Positionen der Gelenke im 3D-Raum und leiten die Pose anschließend mittels eines 3D-Piktoralstruktur-Rahmenwerks ab. Zur Regressionsaufgabe nutzen wir Regressionswälder, die sich als effizient erwiesen haben, um entweder 2D-Pose aus Bildern oder 3D-Pose aus Tiefendaten zu schätzen. Diese Ansätze können jedoch nicht direkt angewendet werden, da jedes lokale Bild- oder Tiefenmerkmal lediglich die relativen Positionen der Gelenke bezüglich der Merkmalsposition schätzt. Während die relative Position eindeutig definiert ist, wenn Merkmal- und Gelenkpositionen entweder im 2D- oder im 3D-Raum gegeben sind, ist sie jedoch nicht definiert, wenn die Merkmale aus 2D-Bildern ohne Tiefeninformation stammen und die Gelenkpositionen in einem 3D-Weltsystem vorhergesagt werden müssen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| 3d-human-pose-estimation-on-humaneva-i | DSRF | Mean Reconstruction Error (mm): 40.3 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.