Command Palette
Search for a command to run...
Lernen von Pose-Grammatik für monokulare 3D-Pose-Schätzung
Lernen von Pose-Grammatik für monokulare 3D-Pose-Schätzung
Song-Chun Zhu Yuanlu Xu Wenguan Wang Jianwen Xie Xiaobai Liu
Zusammenfassung
In diesem Paper stellen wir eine Pose-Grammatik vor, um das Problem der 3D-Menschengesten-Schätzung aus einer monokularen RGB-Bildaufnahme zu lösen. Unser Modell nimmt eine geschätzte 2D-Gestenposition als Eingabe und lernt eine verallgemeinerte 2D-3D-Zuordnungsfunktion, um auf die 3D-Gesten zu schließen. Das vorgeschlagene Modell besteht aus einem Basisnetzwerk, das effizient gelenkorientierte Merkmale erfasst, sowie einer Hierarchie von bidirektionalen rekurrenten neuronalen Netzen (BRNNs), die explizit Wissen über die menschliche Körperkonfiguration (d. h. Kinematik, Symmetrie, motorische Koordination) integrieren. Dadurch werden hochwertige Einschränkungen bezüglich der menschlichen Gesten erzwungen. Im Lernprozess entwickeln wir einen Daten-Augmentierungsalgorithmus, um die Robustheit des Modells gegenüber Änderungen im Erscheinungsbild sowie die Fähigkeit zur Generalisierung über verschiedene Ansichten hinweg weiter zu verbessern. Wir validieren unsere Methode an öffentlichen Benchmarks für 3D-Menschengesten und schlagen ein neues Evaluierungsprotokoll vor, das auf einem Cross-View-Setting basiert, um die Generalisierungsfähigkeit verschiedener Methoden zu überprüfen. Experimentell beobachten wir, dass die meisten aktuellen State-of-the-Art-Methoden unter solchen Bedingungen Schwierigkeiten haben, während unser Ansatz diese Herausforderungen gut bewältigen kann.