HyperAIHyperAI
vor 2 Monaten

Globales-zu-locales Modellieren für die schätzungs-basierte 3D-Pose- und Formbestimmung von Menschen auf Videogrundlage

Shen, Xiaolong ; Yang, Zongxin ; Wang, Xiaohan ; Ma, Jianxin ; Zhou, Chang ; Yang, Yi
Globales-zu-locales Modellieren für die schätzungs-basierte 3D-Pose- und Formbestimmung von Menschen auf Videogrundlage
Abstract

Videobasierte 3D-Schätzungen von menschlicher Pose und Form werden anhand der Genauigkeit innerhalb des Bildes (intra-frame) und der Glätte zwischen den Bildern (inter-frame) bewertet. Obwohl diese beiden Metriken für unterschiedliche zeitliche Konsistenzen verantwortlich sind, behandeln bestehende Methoden auf dem neuesten Stand der Technik sie als einheitliches Problem und verwenden monotone Modellstrukturen (z.B. RNN oder aufmerksamkeitsbasierte Blöcke), um ihre Netzwerke zu gestalten. Allerdings ist es schwierig, mit einer einzigen Art von Modellstruktur das Lernen kurzfristiger und langfristiger zeitlicher Korrelationen auszugleichen, was dazu führen kann, dass das Netzwerk sich auf eine davon konzentriert und unerwünschte Vorhersagen wie globale Positionsschiebungen, zeitliche Inkonsistenzen und unzureichende lokale Details liefert.Um diese Probleme zu lösen, schlagen wir vor, die Modellierung langfristiger und kurzfristiger Korrelationen strukturell in einem End-to-End-Framework zu entkoppeln: den Global-to-Local Transformer (GLoT). Zunächst wird ein globaler Transformer mit einer Maskierten Pose- und Formschätzungsstrategie (Masked Pose and Shape Estimation) für die langfristige Modellierung eingeführt. Diese Strategie ermutigt den globalen Transformer, mehr inter-frame-Korrelationen zu lernen, indem die Merkmale mehrerer Frames zufällig maskiert werden. An zweiter Stelle ist ein lokaler Transformer verantwortlich für die Auswertung lokaler Details im menschlichen Mesh und interagiert mit dem globalen Transformer durch die Nutzung von Cross-Attention.Darüber hinaus wird ein Hierarchischer Räumlicher Korrelationsregressor eingeführt, um intra-frame-Schätzungen durch entkoppelte globale-lokale Repräsentationen und implizite kinematische Einschränkungen zu verfeinern. Unser GLoT übertrifft frühere Methoden auf dem neuesten Stand der Technik bei den geringsten Modellparametern in populären Benchmarks wie 3DPW, MPI-INF-3DHP und Human3.6M. Der Quellcode ist unter https://github.com/sxl142/GLoT verfügbar.

Globales-zu-locales Modellieren für die schätzungs-basierte 3D-Pose- und Formbestimmung von Menschen auf Videogrundlage | Neueste Forschungsarbeiten | HyperAI