Geometrie-gesteuerter Transformer für robuste multiview-basierte 3D-Pose-Rekonstruktion von Menschen

Wir adressieren die Herausforderungen bei der Schätzung von 3D-Menschenposen aus mehreren Ansichten unter Berücksichtigung von Verdeckungen und begrenztem Überlappungsgebiet der Ansichten. Wir betrachten die Rekonstruktion von 3D-Menschenposen aus mehreren Ansichten für eine Person als ein Regressionsproblem und schlagen eine neuartige Encoder-Decoder-Transformer-Architektur vor, um 3D-Posen aus multiplen 2D-Pose-Sequenzen zu schätzen. Der Encoder verfeinert die über verschiedene Ansichten und Zeiten detektierten 2D-Skelettgelenke und fusioniert dabei multiview- und zeitliche Informationen durch globale Selbstaufmerksamkeit (self-attention). Wir verbessern den Encoder durch die Einbindung eines geometrie-verzerrten Aufmerksamheitsmechanismus, der geometrische Beziehungen zwischen den Ansichten effektiv nutzt. Zudem nutzen wir die vom 2D-Pose-Detektor bereitgestellten Detektionswahrscheinlichkeiten, um die Aufmerksamkeit des Encoders auf Basis der Zuverlässigkeit der 2D-Detektionen weiter zu leiten. Der Decoder regressiert anschließend die 3D-Pose-Sequenz aus diesen verfeinerten Tokens, wobei für jedes Gelenk vorgegebene Abfragen verwendet werden. Um die Generalisierungsfähigkeit unserer Methode auf unbekannte Szenen zu erhöhen und ihre Robustheit gegenüber fehlenden Gelenken zu verbessern, implementieren wir Strategien wie Szenezentrierung, synthetische Ansichten und Token-Dropout. Wir führen umfangreiche Experimente auf drei öffentlichen Benchmark-Datensätzen durch: Human3.6M, CMU Panoptic und Occlusion-Persons. Unsere Ergebnisse zeigen die Effizienz unseres Ansatzes, insbesondere in Szenen mit Verdeckungen und bei wenigen verfügbaren Ansichten, welche traditionell schwierige Szenarien für triangulationsbasierte Methoden darstellen.