Kreuzsicht-Fusion für die 3D-Pose-Schätzung von Menschen

Wir präsentieren einen Ansatz zur Rekonstruktion absoluter 3D-Menschenpose aus Multiview-Bildern, indem wir multiview-geometrische A-priori-Wissen in unser Modell integrieren. Dieser Ansatz besteht aus zwei getrennten Schritten: (1) die Schätzung der 2D-Posen in Multiview-Bildern und (2) die Wiederherstellung der 3D-Pose aus den multiview-2D-Posen. Zunächst führen wir ein cross-view-Fusionsverfahren in das CNN ein, um die 2D-Pose für mehrere Ansichten gemeinsam zu schätzen. Dadurch profitiert die 2D-Pose-Schätzung für jede einzelne Ansicht bereits von den anderen Ansichten. Im zweiten Schritt stellen wir ein rekursives Pictorial Structure Modell vor, um die 3D-Pose aus den multiview-2D-Posen zu rekonstruieren. Dieses Modell verbessert allmählich die Genauigkeit der 3D-Pose bei vertretbaren Rechenkosten. Wir testen unsere Methode auf zwei öffentlichen Datensätzen, H36M und Total Capture. Die mittleren Fehler pro Gelenkposition auf diesen beiden Datensätzen betragen 26 mm und 29 mm, was erheblich besser ist als der aktuelle Stand der Technik (26 mm im Vergleich zu 52 mm, 29 mm im Vergleich zu 35 mm). Unser Code ist unter \url{https://github.com/microsoft/multiview-human-pose-estimation-pytorch} verfügbar.