MotionBERT: Eine Einheitliche Perspektive auf das Lernen von Humangen Bewegungsrepräsentationen

Wir präsentieren eine einheitliche Perspektive zur Bewältigung verschiedener menschenzentrierter Videoaufgaben durch das Lernen von Bewegungsrepräsentationen aus umfangreichen und heterogenen Datenressourcen. Insbesondere schlagen wir eine Vortrainingsphase vor, in der ein Bewegungscodierer trainiert wird, die zugrunde liegende 3D-Bewegung aus verrauschten partiellen 2D-Beobachtungen zu rekonstruieren. Die auf diese Weise erworbenen Bewegungsrepräsentationen integrieren geometrisches, kinematisches und physikalisches Wissen über menschliche Bewegung, das sich leicht auf mehrere nachgeschaltete Aufgaben übertragen lässt. Wir implementieren den Bewegungscodierer mit einem Dual-Stream-Spatio-Temporal-Transformer (DSTformer) Neuronalen Netzwerk. Dieses kann langfristige räumlich-zeitliche Beziehungen zwischen den Skeletalgelenken umfassend und anpassungsfähig erfassen, was durch den bislang niedrigsten Fehler bei der 3D-Pose-Schätzung bei einer Trainierung von Grund auf neu demonstriert wird. Darüber hinaus erreicht unser vorgeschlagenes Framework durch einfache Feinabstimmung des vortrainierten Bewegungscodierers mit einem einfachen Regressionskopf (1-2 Schichten) Spitzenleistungen in allen drei nachgeschalteten Aufgaben, was die Vielseitigkeit der gelernten Bewegungsrepräsentationen unterstreicht. Der Quellcode und die Modelle sind unter https://motionbert.github.io/ verfügbar.