HyperAIHyperAI
vor 2 Monaten

DECA: Tiefgangige viewpunkt-Equivariante Schätzungen der menschlichen Körperhaltung mit Capsule-Autoencodern

Garau, Nicola ; Bisagno, Niccolò ; Bródka, Piotr ; Conci, Nicola
DECA: Tiefgangige viewpunkt-Equivariante Schätzungen der menschlichen Körperhaltung mit Capsule-Autoencodern
Abstract

Die Human-Pose-Estimation (HPE) hat das Ziel, die 3D-Position menschlicher Gelenke aus Bildern oder Videos zu extrahieren. Wir zeigen, dass aktuelle 3D-HPE-Methoden an einem Mangel an Blickwinkeläquivalenz leiden, d. h., sie neigen dazu, bei Blickwinkeln zu versagen oder schlecht abzuschneiden, die während des Trainings nicht gesehen wurden. Tiefenlernmethoden basieren oft auf skaleninvarianten, translationsinvarianten oder rotationsinvarianten Operationen wie Max-Pooling. Die Anwendung solcher Verfahren verbessert jedoch nicht notwendigerweise die Generalisierungsfähigkeit für verschiedene Blickwinkel und führt stattdessen eher zu datenabhängigeren Methoden. Um dieses Problem anzugehen, schlagen wir ein neuartiges Capsule-Autoencoder-Netzwerk mit schnellem variational Bayes-Capsule-Routing vor, das als DECA bezeichnet wird. Durch die Modellierung jedes Gelenks als Capsule-Entität und in Kombination mit dem Routingalgorithmus kann unser Ansatz die hierarchische und geometrische Struktur der Gelenke im Merkmalsraum unabhängig vom Blickwinkel bewahren. Durch die Erreichung von Blickwinkeläquivalenz reduzieren wir die Datenabhängigkeit des Netzes erheblich während des Trainings, was sich in einer verbesserten Fähigkeit zur Generalisierung für unbekannte Blickwinkel niederschlägt. In der experimentellen Validierung übertreffen wir andere Methoden sowohl bei Tiefenbildern von bekannten als auch von unbekannten Blickwinkeln, sowohl bei Top-View als auch bei Front-View. Im RGB-Bereich liefert dasselbe Netzwerk Stand-des-Wissens-Ergebnisse bei der anspruchsvollen Aufgabe der Blickwinkelübertragung und legt damit einen neuen Rahmen für Top-View-HPE fest. Der Code ist unter https://github.com/mmlab-cv/DECA verfügbar.

DECA: Tiefgangige viewpunkt-Equivariante Schätzungen der menschlichen Körperhaltung mit Capsule-Autoencodern | Neueste Forschungsarbeiten | HyperAI