HyperAIHyperAI

Command Palette

Search for a command to run...

3D-Menschliche-Pose-Schätzung mit räumlichen und zeitlichen Transformatoren

Ce Zheng Sijie Zhu Matias Mendieta Taojiannan Yang Chen Chen Zhengming Ding

Zusammenfassung

Transformer-Architekturen sind zu den bevorzugten Modellen in der natürlichen Sprachverarbeitung geworden und werden nun auch in Computer Vision Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung eingeführt. Allerdings bleiben in der menschlichen Pose-Schätzung konvolutive Architekturen weiterhin dominant. In dieser Arbeit stellen wir PoseFormer vor, einen rein transformer-basierten Ansatz für die 3D-Pose-Schätzung von Menschen in Videos ohne Verwendung konvolutiver Architekturen. Inspiriert durch jüngste Entwicklungen in Vision Transformers haben wir eine räumlich-zeitliche Transformer-Struktur entworfen, um sowohl die Gelenkbeziehungen innerhalb jedes Frames als auch die zeitlichen Korrelationen zwischen Frames umfassend zu modellieren, um anschließend eine genaue 3D-Pose des zentralen Frames auszugeben. Wir evaluieren unsere Methode quantitativ und qualitativ anhand zweier bekannter und standardisierter Benchmark-Datensätze: Human3.6M und MPI-INF-3DHP. Umfangreiche Experimente zeigen, dass PoseFormer auf beiden Datensätzen den aktuellen Stand der Technik erreicht. Der Code ist unter \url{https://github.com/zczcwh/PoseFormer} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp