Tiefe Autoencoder für kombinierte Schätzung der menschlichen Pose und Aufskalierung des Körperm odells

Wir präsentieren eine Methode zur gleichzeitigen Schätzung von 3D-Menschpose und Körperform aus einer dünn besetzten Menge von Kamerasichten mit großer Baseline. Wir trainieren einen symmetrischen Faltungs-Autoencoder mit einem Dualverlust, der das Lernen einer latente Darstellung erzwingt, die Skeletalgelenkpositionen kodiert, und gleichzeitig eine tiefe Darstellung der volumnetrischen Körperform lernt. Wir nutzen letztere, um die Eingangsdaten der volumnetrischen Körperform um den Faktor $4 \times$ aufzuskalieren, während wir eine 3D-Schätzung der Gelenkpositionen mit gleicher oder größerer Genauigkeit als der Stand der Technik erzielen. Die Inferenz läuft in Echtzeit (25 fps) und bietet das Potenzial für passives Verhaltensmonitoring von Menschen, wo eine hohe Treue bei der Schätzung von Menschkörperform und -pose erforderlich ist.