Die Ausnutzung zeitlicher Kontexte mit einem strided Transformer für die 3D-Pose-Schätzung von Menschen

Trotz der großen Fortschritte bei der 3D-Pose-Schätzung von Videos ist esnoch ein offenes Problem, eine redundante 2D-Pose-Sequenz vollständig zu nutzen,um repräsentative Darstellungen für die Generierung einer 3D-Pose zu lernen. Zu diesem Zweckschlagen wir eine verbesserte Transformer-basierte Architektur vor, den sogenannten StridedTransformer, der einfach und effektiv eine lange Sequenz von 2D-Gelenkpositionen in eine einzelne 3D-Pose überträgt. Insbesondere wird ein Vanilla-Transformer-Encoder (VTE)verwendet, um die langfristigen Abhängigkeiten von 2D-Pose-Sequenzen zu modellieren. Umdie Redundanz der Sequenz zu reduzieren, werden die voll verbundenen Schichten imFeed-Forward-Netzwerk des VTE durch strided Convolutions (gepunktete Faltungsschichten) ersetzt,um die Sequenzlänge schrittweise zu verkleinern und Informationen aus lokalen Kontexten zusammenzufassen. Der modifizierte VTE wird als Strided Transformer Encoder (STE)bezeichnet und basiert auf den Ausgaben des VTE. Das STE aggregiert nicht nur effektiv langfristige Informationen in einer hierarchischen global-lokalen Weise zu einer Einzelvektor-Darstellung, sondern reduziert auch erheblich die Rechenkosten. Des Weiteren wurde ein Überwachungsschema von Sequenz-zu-Einzeldarstellung sowohl auf der Ebene der gesamten Sequenz als auch auf der Ebene des einzelnen Zielrahmens konzipiert und auf die Ausgaben des VTE und STE angewendet.Dieses Schema legt zusätzliche zeitliche Glättungsbedingungen in Verbindung mit der Überwachung des einzelnen Zielrahmens fest und hilft daher, glattere und genaue 3D-Posen zu erzeugen. Der vorgeschlagene Strided Transformer wurde anhand zweier anspruchsvoller Benchmark-Datensätze, Human3.6M und HumanEva-I, evaluiert und erreicht mit weniger Parametern standesübliche Ergebnisse. Der Quellcode und die Modelle sind unter \url{https://github.com/Vegetebird/StridedTransformer-Pose3D} verfügbar.