HyperAIHyperAI

Command Palette

Search for a command to run...

Globales-zu-locales Modellieren für die schätzungs-basierte 3D-Pose- und Formbestimmung von Menschen auf Videogrundlage

Xiaolong Shen extsuperscript1,2*, Zongxin Yang extsuperscript1, Xiaohan Wang extsuperscript1, Jianxin Ma extsuperscript2, Chang Zhou extsuperscript2, Yi Yang extsuperscript1

Zusammenfassung

Videobasierte 3D-Schätzungen von menschlicher Pose und Form werden anhand der Genauigkeit innerhalb des Bildes (intra-frame) und der Glätte zwischen den Bildern (inter-frame) bewertet. Obwohl diese beiden Metriken für unterschiedliche zeitliche Konsistenzen verantwortlich sind, behandeln bestehende Methoden auf dem neuesten Stand der Technik sie als einheitliches Problem und verwenden monotone Modellstrukturen (z.B. RNN oder aufmerksamkeitsbasierte Blöcke), um ihre Netzwerke zu gestalten. Allerdings ist es schwierig, mit einer einzigen Art von Modellstruktur das Lernen kurzfristiger und langfristiger zeitlicher Korrelationen auszugleichen, was dazu führen kann, dass das Netzwerk sich auf eine davon konzentriert und unerwünschte Vorhersagen wie globale Positionsschiebungen, zeitliche Inkonsistenzen und unzureichende lokale Details liefert.Um diese Probleme zu lösen, schlagen wir vor, die Modellierung langfristiger und kurzfristiger Korrelationen strukturell in einem End-to-End-Framework zu entkoppeln: den Global-to-Local Transformer (GLoT). Zunächst wird ein globaler Transformer mit einer Maskierten Pose- und Formschätzungsstrategie (Masked Pose and Shape Estimation) für die langfristige Modellierung eingeführt. Diese Strategie ermutigt den globalen Transformer, mehr inter-frame-Korrelationen zu lernen, indem die Merkmale mehrerer Frames zufällig maskiert werden. An zweiter Stelle ist ein lokaler Transformer verantwortlich für die Auswertung lokaler Details im menschlichen Mesh und interagiert mit dem globalen Transformer durch die Nutzung von Cross-Attention.Darüber hinaus wird ein Hierarchischer Räumlicher Korrelationsregressor eingeführt, um intra-frame-Schätzungen durch entkoppelte globale-lokale Repräsentationen und implizite kinematische Einschränkungen zu verfeinern. Unser GLoT übertrifft frühere Methoden auf dem neuesten Stand der Technik bei den geringsten Modellparametern in populären Benchmarks wie 3DPW, MPI-INF-3DHP und Human3.6M. Der Quellcode ist unter https://github.com/sxl142/GLoT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Globales-zu-locales Modellieren für die schätzungs-basierte 3D-Pose- und Formbestimmung von Menschen auf Videogrundlage | Paper | HyperAI