HyperAIHyperAI

Command Palette

Search for a command to run...

Geometrie-gesteuerter Transformer für robuste multiview-basierte 3D-Pose-Rekonstruktion von Menschen

Olivier Moliner Sangxia Huang Kalle Åström

Zusammenfassung

Wir adressieren die Herausforderungen bei der Schätzung von 3D-Menschenposen aus mehreren Ansichten unter Berücksichtigung von Verdeckungen und begrenztem Überlappungsgebiet der Ansichten. Wir betrachten die Rekonstruktion von 3D-Menschenposen aus mehreren Ansichten für eine Person als ein Regressionsproblem und schlagen eine neuartige Encoder-Decoder-Transformer-Architektur vor, um 3D-Posen aus multiplen 2D-Pose-Sequenzen zu schätzen. Der Encoder verfeinert die über verschiedene Ansichten und Zeiten detektierten 2D-Skelettgelenke und fusioniert dabei multiview- und zeitliche Informationen durch globale Selbstaufmerksamkeit (self-attention). Wir verbessern den Encoder durch die Einbindung eines geometrie-verzerrten Aufmerksamheitsmechanismus, der geometrische Beziehungen zwischen den Ansichten effektiv nutzt. Zudem nutzen wir die vom 2D-Pose-Detektor bereitgestellten Detektionswahrscheinlichkeiten, um die Aufmerksamkeit des Encoders auf Basis der Zuverlässigkeit der 2D-Detektionen weiter zu leiten. Der Decoder regressiert anschließend die 3D-Pose-Sequenz aus diesen verfeinerten Tokens, wobei für jedes Gelenk vorgegebene Abfragen verwendet werden. Um die Generalisierungsfähigkeit unserer Methode auf unbekannte Szenen zu erhöhen und ihre Robustheit gegenüber fehlenden Gelenken zu verbessern, implementieren wir Strategien wie Szenezentrierung, synthetische Ansichten und Token-Dropout. Wir führen umfangreiche Experimente auf drei öffentlichen Benchmark-Datensätzen durch: Human3.6M, CMU Panoptic und Occlusion-Persons. Unsere Ergebnisse zeigen die Effizienz unseres Ansatzes, insbesondere in Szenen mit Verdeckungen und bei wenigen verfügbaren Ansichten, welche traditionell schwierige Szenarien für triangulationsbasierte Methoden darstellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Geometrie-gesteuerter Transformer für robuste multiview-basierte 3D-Pose-Rekonstruktion von Menschen | Paper | HyperAI