PI-Net: Netzwerk zur Poseninteraktion für die monokulare 3D-Pose-Schätzung von mehreren Personen

In jüngster Literatur wurde die Aufgabe der monokularen 3D-Pose-Schätzung sehr zufriedenstellend behandelt. In diesen Studien werden verschiedene Personen in der Regel als unabhängige Pose-Instanzen betrachtet, um sie zu schätzen. Allerdings treten Menschen in vielen alltäglichen Situationen interaktiv auf, und die Pose einer Person hängt von der Pose ihrer Interaktionspartner ab. In dieser Arbeit untersuchen wir, wie diese Abhängigkeit genutzt werden kann, um aktuelle – und möglicherweise zukünftige – Deep-Networks für die monokulare 3D-Pose-Schätzung zu verbessern. Unser Pose-Interaktion-Netzwerk, oder PI-Net, nimmt die anfänglichen Pose-Schätzungen eines variablen Anzahl von Interaktionspartnern in eine rekurrente Architektur auf, die verwendet wird, um die Pose des interessierenden Individuums zu verfeinern. Die Bewertung solcher Methoden ist herausfordernd aufgrund der begrenzten Verfügbarkeit öffentlich annotierter Multi-Personen-3D-Menschpose-Datensätze. Wir demonstrieren die Effektivität unserer Methode im MuPoTS-Datensatz und etablieren damit den neuen Stand der Technik darin. Qualitative Ergebnisse an anderen Multi-Personen-Datensätzen (für die keine 3D-Pose-Basiswahrheit vorliegt) unterstreichen das vorgeschlagene PI-Net. PI-Net wird in PyTorch implementiert, und der Code wird bei Annahme des Artikels zur Verfügung gestellt.