MotionAGFormer: Verbesserung der 3D-Pose-Schätzung von Menschen mit einem Transformer-GCNFormer-Netzwerk

Kürzlich haben transformer-basierte Ansätze hervorragende Ergebnisse in der 3D-Mensch-Pose-Schätzung gezeigt. Allerdings haben sie eine ganzheitliche Sicht und kodieren durch die Berücksichtigung globaler Beziehungen zwischen allen Gelenken die lokalen Abhängigkeiten nicht präzise. In dieser Arbeit stellen wir einen neuen Attention-GCNFormer (AGFormer)-Block vor, der die Anzahl der Kanäle durch den Einsatz von zwei parallelen Transformer- und GCNFormer-Strömen aufteilt. Unser vorgeschlagenes GCNFormer-Modul nutzt die lokale Beziehung zwischen benachbarten Gelenken und erzeugt eine neue Darstellung, die ergänzend zum Transformer-Ausgang ist. Durch die adaptive Fusion dieser beiden Darstellungen zeigt AGFormer eine bessere Fähigkeit, die zugrunde liegende 3D-Struktur zu lernen. Durch das Stapeln mehrerer AGFormer-Blöcke schlagen wir MotionAGFormer in vier verschiedenen Varianten vor, wobei je nach Geschwindigkeits-Akkuratesse-Kompromiss eine Variante ausgewählt werden kann. Wir evaluieren unser Modell anhand zweier bekannter Benchmark-Datensätze: Human3.6M und MPI-INF-3DHP. MotionAGFormer-B erreicht state-of-the-art-Ergebnisse mit P1-Fehlern von 38,4 mm und 16,2 mm jeweils. Bemerkenswerterweise verwendet es ein Viertel der Parameter und ist dreimal rechnerisch effizienter als das bisher führende Modell auf dem Datensatz Human3.6M. Der Code und die Modelle sind unter https://github.com/TaatiTeam/MotionAGFormer verfügbar.