3D-Mensch-Pose-Maschinen mit selbstüberwachtem Lernen

Getrieben von aktuellen Anwendungen im Bereich Computer Vision und Robotik ist die Rekonstruktion von 3D-Menschenpose zunehmend wichtig geworden und hat ein wachsendes Interesse geweckt. In der Tat stellt die Vervollständigung dieser Aufgabe eine erhebliche Herausforderung dar, aufgrund der vielfältigen Erscheinungsformen, Betrachtungswinkel, Verdeckungen und der inhärenten geometrischen Ambiguitäten in monoökularen Bildern. Die meisten existierenden Methoden konzentrieren sich darauf, ausgeklügelte Vorwissen/Restriktionen zu entwerfen, um 3D-Menschenpose direkt basierend auf den entsprechenden 2D-Pose-bewussten Merkmalen oder 2D-Pose-Vorhersagen zu regredieren. Allerdings sind diese Methoden aufgrund des Mangels an ausreichenden 3D-Pose-Daten für das Training und des Domänenunterschieds zwischen dem 2D-Raum und dem 3D-Raum in praktischen Szenarien (z.B. Outdoor-Szene) nur begrenzt skalierbar. Um dieses Problem anzugehen, schlägt dieser Artikel ein einfaches, aber effektives selbstüberwachtes Korrekturmechanismus vor, um alle intrinsischen Strukturen von Menschenpose aus reichhaltigen Bildern zu lernen. Insbesondere beinhaltet der vorgeschlagene Mechanismus zwei duale Lernaufgaben, nämlich die Transformation von 2D- zu 3D-Pose und die Projektion von 3D- zu 2D-Pose, um als Brücke zwischen 3D- und 2D-Menschenpose in einer Art "freier" Selbstüberwachung für eine genaue Schätzung der 3D-Menschenpose zu dienen. Die Transformation von 2D- zu 3D-Pose bedeutet, unter Berücksichtigung des sequenzabhängigen zeitlichen Kontextes die Darstellung der Pose von der 2D-Domäne in die 3D-Domäne zu transformieren und so nacheinander intermediate 3D-Posen (intermediate 3D poses) zu regredieren. Die Projektion von 3D- zu 2D-Pose trägt dazu bei, die intermediate 3D-Posen durch Erhaltung der geometrischen Konsistenz zwischen den 2D-Projektionen der 3D-Posen und den geschätzten 2D-Posen zu verfeinern. Wir erweitern unseren selbstüberwachten Korrekturmechanismus weiterhin zur Entwicklung einer Maschine zur Schätzung der 3D-Menschenpose, die das gemeinsame Integrieren des räumlichen Zusammenhangs in der Ebene (2D), der zeitlichen Glättung der Vorhersagen und des geometrischen Wissens im Raum (3D) ermöglicht. Ausführliche Evaluierungen zeigen die überlegene Leistungsfähigkeit und Effizienz unseres Frameworks im Vergleich zu allen anderen betrachteten Methoden.