3D-Menschliche-Pose-Schätzung mit räumlichen und zeitlichen Transformatoren

Transformer-Architekturen sind zu den bevorzugten Modellen in der natürlichen Sprachverarbeitung geworden und werden nun auch in Computer Vision Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung eingeführt. Allerdings bleiben in der menschlichen Pose-Schätzung konvolutive Architekturen weiterhin dominant. In dieser Arbeit stellen wir PoseFormer vor, einen rein transformer-basierten Ansatz für die 3D-Pose-Schätzung von Menschen in Videos ohne Verwendung konvolutiver Architekturen. Inspiriert durch jüngste Entwicklungen in Vision Transformers haben wir eine räumlich-zeitliche Transformer-Struktur entworfen, um sowohl die Gelenkbeziehungen innerhalb jedes Frames als auch die zeitlichen Korrelationen zwischen Frames umfassend zu modellieren, um anschließend eine genaue 3D-Pose des zentralen Frames auszugeben. Wir evaluieren unsere Methode quantitativ und qualitativ anhand zweier bekannter und standardisierter Benchmark-Datensätze: Human3.6M und MPI-INF-3DHP. Umfangreiche Experimente zeigen, dass PoseFormer auf beiden Datensätzen den aktuellen Stand der Technik erreicht. Der Code ist unter \url{https://github.com/zczcwh/PoseFormer} verfügbar.