Lernen von Pose-Grammatik zur Kodierung der menschlichen Körperskonfiguration für die 3D-Pose-Schätzung

In dieser Arbeit schlagen wir eine Pose-Grammatik vor, um das Problem der 3D-Pose-Schätzung von Menschen zu lösen. Unser Modell nimmt direkt die 2D-Pose als Eingabe und lernt eine verallgemeinerte Abbildungsfunktion zwischen 2D und 3D. Das vorgeschlagene Modell besteht aus einem Basenetzwerk, das effizient pose-alingierte Merkmale erfasst, und einer Hierarchie bidirektionaler Rekurrenter Neuronaler Netze (BRNN) darüber, um explizit ein Satz an Wissen über die menschliche Körperkonfiguration (d.h., Kinematik, Symmetrie, Motorische Koordination) zu integrieren. Dadurch legt das vorgeschlagene Modell hochwertige Restriktionen auf menschliche Posen fest. Im Lernprozess entwickeln wir einen Pose-Beispiel-Simulator, um Trainingsbeispiele in virtuellen Kameraperspektiven zu erweitern, was die Generalisierungsfähigkeit unseres Modells weiter verbessert. Wir validieren unsere Methode an öffentlichen Benchmark-Datensätzen für 3D-Pose-Schätzung von Menschen und schlagen ein neues Evaluationsprotokoll im Cross-View-Setting vor, um die Generalisierungsfähigkeit verschiedener Methoden zu überprüfen. Wir beobachten empirisch, dass die meisten Stand-of-the-Art-Methoden unter solchen Bedingungen Schwierigkeiten haben, während unsere Methode diese Herausforderungen gut bewältigen kann.