Die Schätzung der egozentrischen 3D-Menschenhaltung im globalen Raum

Die Schätzung der egozentrischen 3D-Menschenpose mit einer einzelnen Fischaugenkamera hat sich kürzlich als beliebt etabliert, da sie es ermöglicht, einen breiten Spektrum an täglichen Aktivitäten in unbeschränkten Umgebungen zu erfassen. Dies ist für traditionelle außen-zu-innen-Bewegungserfassung mit externen Kameras schwierig. Bestehende Methoden haben jedoch mehrere Einschränkungen. Ein hervorstechendes Problem ist, dass die geschätzten Posen im lokalen Koordinatensystem der Fischaugenkamera liegen und nicht im Weltkoordinatensystem, was für viele Anwendungen einschränkend ist. Darüber hinaus leiden diese Methoden an begrenzter Genauigkeit und zeitlicher Instabilität aufgrund von Unsicherheiten, die durch die einäugige Aufnahme und die starke Verdeckung in einer stark verzerrten egozentrischen Perspektive verursacht werden. Um diese Einschränkungen zu überwinden, präsentieren wir eine neue Methode zur egozentrischen globalen 3D-Körperpose-Schätzung mit einer einzigen kopfgemounteten Fischaugenkamera. Um genaue und zeitlich stabile globale Posen zu erreichen, wird eine räumlich-zeitliche Optimierung über eine Folge von Bildern durchgeführt, indem Heatmap-Reprojektionsfehler minimiert und lokale sowie globale Bewegungsmodelle erzwungen werden, die aus einem Motion-Capture-Datensatz gelernt wurden. Experimentelle Ergebnisse zeigen, dass unser Ansatz sowohl quantitativ als auch qualitativ den aktuellen Stand der Technik übertrifft.