Menschliche Pose-Regression durch Kombination indirekter Körperteilserkennung und kontextueller Informationen

In dieser Arbeit schlagen wir einen von Anfang bis Ende trainierbaren Regressionsansatz für die Schätzung der menschlichen Körperhaltung aus Stillbildern vor. Wir verwenden die vorgeschlagene Soft-Argmax-Funktion, um Merkmalskarten direkt in Gelenkkoordinaten zu konvertieren, was zu einem vollständig differenzierbaren Framework führt. Unsere Methode ist in der Lage, Wärmebildrepräsentationen indirekt zu lernen, ohne zusätzliche Schritte zur künstlichen Generierung von Ground Truth-Daten. Dadurch kann kontextuelle Information nahtlos in die Haltungsvorhersagen integriert werden. Wir haben unsere Methode anhand zweier sehr anspruchsvoller Datensätze evaluiert: dem Leeds Sports Poses (LSP)-Datensatz und dem MPII Human Pose-Datensatz. Dabei erreichten wir die beste Leistung unter allen existierenden Regressionsmethoden und vergleichbare Ergebnisse mit den besten detektionsbasierten Ansätzen.