VirtualPose: Lernen von generalisierbaren 3D-Mensch-Pose-Modellen aus virtuellen Daten

Während die monokulare 3D-Pose-Schätzung scheinbar sehr genaue Ergebnisse auf öffentlichen Datensätzen erzielt hat, wird ihre Generalisierungsfähigkeit weitgehend vernachlässigt. In dieser Arbeit führen wir eine systematische Bewertung der existierenden Methoden durch und stellen fest, dass sie bei Tests mit verschiedenen Kameras, menschlichen Poses und Erscheinungen erheblich größere Fehler aufweisen. Um dieses Problem anzugehen, stellen wir VirtualPose vor, ein zweistufiges Lernframework, das das verborgene „ kostenlose Mittagessen“ für diese Aufgabe ausnutzt, d.h. die Erzeugung unendlich vieler Poses und Kameras zur Modelltrainingskostenlos. Dazu transformiert die erste Stufe Bilder in abstrakte geometrische Darstellungen (AGR), während die zweite Stufe diese dann auf 3D-Poses abbildet. Es behandelt das Generalisierungsproblem aus zwei Perspektiven: (1) Die erste Stufe kann anhand vielfältiger 2D-Datensätze trainiert werden, um das Risiko des Überanpassens an begrenzte Erscheinungen zu verringern; (2) Die zweite Stufe kann anhand vielfältiger AGR trainiert werden, die aus einer großen Anzahl virtueller Kameras und Poses synthetisiert wurden. Ohne den Einsatz von gepaarten Bildern und 3D-Posen aus den Benchmarks übertreffen unsere Methoden die derzeit besten Ansätze (SOTA), was den Weg für praktische Anwendungen ebnen könnte. Der Quellcode ist unter https://github.com/wkom/VirtualPose verfügbar.