HyperAIHyperAI
vor 2 Monaten

Die Bewegung jedes Gelenks erfassen: 3D-Schätzung von menschlicher Pose und Form mit unabhängigen Token

Yang, Sen ; Heng, Wen ; Liu, Gang ; Luo, Guozhong ; Yang, Wankou ; Yu, Gang
Die Bewegung jedes Gelenks erfassen: 3D-Schätzung von menschlicher Pose und Form mit unabhängigen Token
Abstract

In dieser Arbeit stellen wir eine neue Methode vor, um die 3D-Pose und -Form von Menschen aus monokularen Videos zu schätzen. Diese Aufgabe erfordert das direkte Wiederherstellen der Pixelausrichtung der 3D-Pose und Körperform aus monokularen Bildern oder Videos, was aufgrund seiner inhärenten Mehrdeutigkeit herausfordernd ist. Um die Genauigkeit zu verbessern, hängen bestehende Methoden stark von initialisierten Mittelwerten für Pose und Form als vorangegangene Schätzungen ab und verwenden eine parameterbasierte Regression mit iterativer Fehlerrückmeldung. Zudem modellieren videobasierte Ansätze die Gesamtänderung auf der Ebene der Bildmerkmale, um die zeitliche Verbesserung einzelner Frames zu erreichen, scheitern jedoch daran, die rotatorische Bewegung auf der Gelenkebene zu erfassen, und können die lokale zeitliche Konsistenz nicht gewährleisten. Um diese Probleme anzugehen, schlagen wir ein neues Transformer-basiertes Modell mit einer Designkonzeption unabhängiger Tokens vor. Erstens führen wir drei Arten von Tokens ein, die unabhängig von den Bildmerkmalen sind: \textit{Gelenkdrehungs-Tokens (joint rotation tokens), Form-Token (shape token) und Kamera-Token (camera token)}. Durch fortschreitenden Austausch mit den Bildmerkmalen durch Transformer-Schichten lernen diese Tokens, Vorwissen über 3D-Gelenkdrehungen, Körperform und Positionsinformationen aus umfangreichen Daten zu kodieren, und werden aktualisiert, um die SMPL-Parameter unter Berücksichtigung eines gegebenen Bildes zu schätzen. Zweitens profitieren wir dank des vorgeschlagenen tokenbasierten Darstellungsansatzes von einem zeitlichen Modell zur Erfassung der rotatorischen zeitlichen Informationen jedes Gelenks, was empirisch dazu beiträgt, große Schwankungen in lokalen Bereichen zu verhindern. Trotz ihrer konzeptuellen Einfachheit erzielt die vorgeschlagene Methode überlegene Leistungen auf den Datensätzen 3DPW und Human3.6M. Mit den Architekturen ResNet-50 und Transformer erreicht sie einen Fehler von 42,0 mm im PA-MPJPE-Metrik des anspruchsvollen 3DPW-Datensatzes und übertreffen damit state-of-the-art-Methoden deutlich. Der Code wird öffentlich verfügbar sein unterhttps://github.com/yangsenius/INT_HMR_Model