Kaskadierte tief monokulare 3D-Pose-Schätzung von Menschen mit evolutionären Trainingsdaten

Die end-to-end tiefen Darstellungslernverfahren haben bei der monoaularen 3D-Pose-Schätzung bemerkenswerte Genauigkeit erzielt, scheitern jedoch an unbekannten Posen aufgrund begrenzter und fester Trainingsdaten. In dieser Arbeit wird eine neuartige Datenverstärkungsmethode vorgeschlagen, die folgende Eigenschaften hat: (1) Sie ist skalierbar zur Erzeugung großer Mengen von Trainingsdaten (über 8 Millionen gültiger 3D-Menschposes mit entsprechenden 2D-Projektionen) für das Training von 2D-zu-3D-Netzwerken, (2) sie kann den Datensatz Bias effektiv reduzieren. Unsere Methode entwickelt einen begrenzten Datensatz, um unbekannte 3D-Menschenskelette basierend auf einer hierarchischen Menschendarstellung und Heuristiken, die durch Vorwissen inspiriert sind, zu synthetisieren. Ausführliche Experimente zeigen, dass unser Ansatz nicht nur den Stand der Technik in Bezug auf Genauigkeit am größten öffentlichen Benchmark erreicht, sondern auch erheblich besser auf unbekannte und seltene Posen verallgemeinert. Der Quellcode, vorab trainierte Modelle und Tools sind unter dieser HTTPS-URL verfügbar.