Aufmerksamkeits-Propagationsnetzwerk für die Hebung von egozentrischen Heatmaps zu 3D-Posen

Wir stellen EgoTAP vor, eine Methode zur Umwandlung von Heatmaps in 3D-Posen für hochgenaue stereo-egozentrische 3D-Pose-Schätzungen. Starke Selbstverdeckungen und außerhalb des Blickfeldes befindliche Gliedmaßen in egozentrischen Kameraperspektiven machen die genaue Pose-Schätzung zu einem herausfordernden Problem. Um dieser Herausforderung zu begegnen, verwenden bisherige Methoden Joint Heatmaps, probabilistische 2D-Darstellungen der Körperpose, aber die Umwandlung von Heatmaps in 3D-Posen bleibt weiterhin ein ungenauer Prozess. Wir schlagen eine neuartige Methode zur Umwandlung von Heatmaps in 3D-Posen vor, die aus dem Grid ViT Encoder und dem Propagation Network besteht. Der Grid ViT Encoder fasst Joint Heatmaps durch Selbst-Attention zu effektiven Merkmalsdarstellungen zusammen. Anschließend schätzt das Propagation Network die 3D-Pose, indem es Skeletalinformationen nutzt, um die Position verdeckter Gelenke besser abzuschätzen. Unsere Methode übertrifft den bisherigen Stand der Technik erheblich, was qualitativ und quantitativ durch eine Fehlerreduzierung von 23,9 % im MPJPE-Metrik gezeigt wird. Unser Quellcode ist auf GitHub verfügbar.