BioPose: Biomechanisch genaue 3D-Pose-Schätzung aus monokularen Videos

Kürzliche Fortschritte bei der 3D-Pose-Schätzung von Menschen aus Einzelbildern und Videos haben sich auf parametrische Modelle wie SMPL gestützt. Diese Modelle vereinfachen jedoch die anatomischen Strukturen zu stark, was ihre Genauigkeit bei der Erfassung tatsächlicher Gelenkpositionen und -bewegungen einschränkt und ihre Anwendbarkeit in der Biomechanik, Gesundheitsversorgung und Robotik reduziert. Eine biomechanisch genaue Pose-Schätzung erfordert dagegen in der Regel kostspielige markierungsbezogene Bewegungserfassungssysteme und Optimierungstechniken in spezialisierten Laboren. Um diese Lücke zu schließen, schlagen wir BioPose vor, einen neuen lernbasierten Ansatz zur Vorhersage biomechanisch genauer 3D-Menschenpose direkt aus monokularen Videos. BioPose umfasst drei wesentliche Komponenten: ein Modell zur Mehrabfrage-Rekonstruktion des menschlichen Netzes (Multi-Query Human Mesh Recovery, MQ-HMR), ein neuronales inverses Kinematikmodell (Neural Inverse Kinematics, NeurIK) und eine 2D-gesteuerte Poserefinements-Technik. MQ-HMR nutzt einen mehrabfragenbasierten deformierbaren Transformer, um mehrskalige feingranulare Bildmerkmale zu extrahieren, was eine präzise Rekonstruktion des menschlichen Netzes ermöglicht. NeurIK behandelt die Netzpunkte als virtuelle Markierungen und wendet ein räumlich-zeitliches Netzwerk an, um unter anatomischen Restriktionen biomechanisch genaue 3D-Posen zu regredieren. Um die 3D-Pose-Schätzungen weiter zu verbessern, optimiert ein 2D-gesteuerter Refinementschritt während der Inferenz die Abfragetoken, indem er die 3D-Struktur mit den 2D-Posebeobachtungen ausrichtet. Experimente an Benchmark-Datensätzen zeigen, dass BioPose erheblich über den aktuellen Stand der Technik hinausgeht.Projektwebsite:\url{https://m-usamasaleem.github.io/publication/BioPose/BioPose.html}.