HyperAIHyperAI
vor 2 Monaten

PoseFormerV2: Erkundung des Frequenzbereichs für effiziente und robuste 3D-Mensch-Pose-Schätzung

Zhao, Qitao ; Zheng, Ce ; Liu, Mengyuan ; Wang, Pichao ; Chen, Chen
PoseFormerV2: Erkundung des Frequenzbereichs für effiziente und robuste 3D-Mensch-Pose-Schätzung
Abstract

Kürzlich haben transformer-basierte Methoden bei der sequentiellen 2D-zu-3D-Pose-Schätzung erheblichen Erfolg erzielt. Als pionierendes Werk nutzt PoseFormer mit aufeinanderfolgenden Transformer-Layern die räumlichen Beziehungen zwischen den menschlichen Gelenken in jedem Video-Frame sowie die menschliche Dynamik über mehrere Frames hinweg und hat beeindruckende Ergebnisse geliefert. Allerdings sind die Leistungen von PoseFormer und seinen Nachfolgern in realen Szenarien durch zwei Faktoren begrenzt: (a) Die Länge der Eingangs-Gelenk-Sequenz; (b) Die Qualität der 2D-Gelenk-Erkennung. Bestehende Methoden wenden in der Regel Selbst-Aufmerksamkeit auf alle Frames der Eingangssequenz an, was zu einer enormen Rechenbelastung führt, wenn die Anzahl der Frames erhöht wird, um eine höhere Schätzgenauigkeit zu erreichen. Zudem sind sie nicht robust gegenüber dem durch die begrenzte Leistungsfähigkeit von 2D-Gelenk-Detektoren natürlicherweise entstehenden Rauschen. In dieser Arbeit schlagen wir PoseFormerV2 vor, welche eine kompakte Darstellung langer Skeletalsequenzen im Frequenzbereich nutzt, um den Empfangsbereich effizient zu erweitern und die Robustheit gegenüber verrauschten 2D-Gelenk-Detektionen zu verbessern. Mit minimalen Änderungen an PoseFormer fusioniert das vorgeschlagene Verfahren Merkmale sowohl im Zeitbereich als auch im Frequenzbereich und bietet einen besseren Kompromiss zwischen Geschwindigkeit und Genauigkeit als sein Vorgänger. Ausführliche Experimente auf zwei Benchmark-Datensätzen (nämlich Human3.6M und MPI-INF-3DHP) zeigen, dass der vorgeschlagene Ansatz das originale PoseFormer sowie andere transformer-basierte Varianten erheblich übertrifft. Der Quellcode ist unter \url{https://github.com/QitaoZhao/PoseFormerV2} veröffentlicht.

PoseFormerV2: Erkundung des Frequenzbereichs für effiziente und robuste 3D-Mensch-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI