VTP: Volumetrischer Transformer für die Mehransichts-Mehrpersonen-3D-Pose-Schätzung

Diese Arbeit präsentiert den Volumetric Transformer Pose Estimator (VTP), den ersten 3D-volumetrischen Transformer-Framework für die Mehrpersonen-3D-Gestenanalyse aus mehreren Ansichten. VTP aggregiert Merkmale aus 2D-Gelenkpunkten aller Kamerasichten und lernt die räumlichen Beziehungen im 3D-Voxelraum direkt und end-to-end. Die aggregierten 3D-Merkmale werden vor der Flachstellung in sequenzielle Embeddings durch 3D-Konvolutionen geleitet und anschließend in einen Transformer eingespeist. Ein residualer Strukturansatz wird zusätzlich eingeführt, um die Leistung weiter zu verbessern. Darüber hinaus wird die sparse Sinkhorn-Attention eingesetzt, um den Speicherverbrauch zu reduzieren, der ein zentrales Hindernis für volumetrische Darstellungen darstellt, ohne dabei die Leistung zu beeinträchtigen. Die Ausgabe des Transformers wird erneut über eine residual-Struktur mit 3D-Konvolutional-Merkmale kombiniert. Der vorgeschlagene VTP-Framework integriert die hohe Leistungsfähigkeit des Transformers mit volumetrischen Darstellungen und kann als eine effektive Alternative zu konventionellen Konvolutionsschichten dienen. Experimente auf den Benchmarks Shelf, Campus und CMU Panoptic zeigen vielversprechende Ergebnisse sowohl hinsichtlich des Mean Per Joint Position Error (MPJPE) als auch des Anteils korrekt geschätzter Körperteile (PCP). Der Quellcode wird veröffentlicht werden.