LiftFormer: 3D Human Pose Estimation mithilfe von Attention-Modellen

Die Schätzung der 3D-Position menschlicher Gelenke ist in den letzten Jahren zu einem weit verbreiteten Forschungsthema geworden. Besonderes Augenmerk wurde dabei auf die Entwicklung neuer Methoden gelegt, die zweidimensionale Daten (Keypoints) in 3D extrapoliert, insbesondere die Vorhersage der gelenkrelativen Koordinaten im Zusammenhang mit menschlichen Skeletten. Die neuesten Forschungstrends haben gezeigt, dass Transformer-Encoder-Blöcke die Aggregation zeitlicher Informationen signifikant besser bewältigen als frühere Ansätze. Daher schlagen wir die Nutzung solcher Modelle vor, um präzisere 3D-Schätzungen durch Ausnutzung zeitlicher Informationen mittels Aufmerksamkeitsmechanismen auf geordneten Sequenzen menschlicher Pose in Videos zu erzielen.Unsere Methode übertrifft die bisher besten Ergebnisse aus der Literatur konsistent – sowohl bei Verwendung von 2D-Keypoint-Vorhersagern um 0,3 mm (44,8 MPJPE, 0,7 % Verbesserung) als auch bei Verwendung von Ground-Truth-Eingaben um 2 mm (MPJPE: 31,9, 8,4 % Verbesserung) auf dem Human3.6M-Datensatz. Zudem erzielt sie state-of-the-art-Leistung auf dem HumanEva-I-Datensatz mit 10,5 P-MPJPE (22,2 % Reduktion). Die Anzahl der Parameter in unserem Modell ist leicht anpassbar und liegt mit 9,5 Mio. niedriger als bei aktuellen Methoden (16,95 Mio. und 11,25 Mio.), ohne dabei die Leistung einzubüßen. Somit übertrifft die Genauigkeit unseres 3D-Lifting-Modells die anderer end-to-end- oder SMPL-basierter Ansätze und ist mit vielen Multi-View-Methoden vergleichbar.