Adversariale PoseNet: Eine strukturbewusste Faltungsnetzwerk für die Schätzung menschlicher Körperhaltungen

Für die Schätzung von menschlichen Körperhaltungen in mono-optischen Bildern führen häufig die Verdeckung von Gelenken und das Überlappen von Körpern zu abweichenden Haltungsprognosen. Unter diesen Bedingungen können biologisch unplausible Haltungsprognosen entstehen. Im Gegensatz dazu ist die menschliche Wahrnehmung in der Lage, Haltungen durch Ausnutzen geometrischer Restriktionen der Gelenkverbindungen vorherzusagen. Um dieses Problem durch Einbeziehung von Vorwissen über die Struktur des menschlichen Körpers anzugehen, schlagen wir ein neues strukturbewusstes Faltungsnetzwerk vor, das solche Vorwissen während des Trainings des tiefen Netzes implizit berücksichtigt. Das explizite Lernen solcher Restriktionen ist in der Regel schwierig. Stattdessen gestalten wir Diskriminatoren, um echte Haltungen von gefälschten (wie biologisch unplausible) zu unterscheiden. Wenn der Pose-Generator (G) Ergebnisse erzeugt, die der Diskriminator nicht von echten unterscheiden kann, lernt das Netzwerk die Vorwissen erfolgreich.