Schätzung der egozentrischen 3D-Menschpose im Freien mit externer schwacher Überwachung

Die Schätzung der 3D-Menschpose aus einer egozentrischen Perspektive mit einer einzelnen Fischaugenkamera hat in letzter Zeit erhebliches Interesse geweckt. Bestehende Methoden haben jedoch Schwierigkeiten bei der Pose-Schätzung von realen Bildern, da sie aufgrund des Mangels an umfangreichen realen egozentrischen Datensätzen nur mit synthetischen Daten trainiert werden können. Zudem scheitern diese Methoden leicht, wenn Körperteile durch oder in Interaktion mit der Umgebung verdeckt sind. Um das Defizit an realen Daten zu beheben, haben wir einen umfangreichen realen egozentrischen Datensatz namens "Egocentric Poses in the Wild" (EgoPW) gesammelt. Dieser Datensatz wurde mit einer Kopfmontierungskamera und einer zusätzlichen externen Kamera aufgenommen, die während des Trainings eine zusätzliche Beobachtung des menschlichen Körpers aus dritter Person ermöglicht. Wir stellen eine neue Methode zur Schätzung der egozentrischen Pose vor, die mit schwacher externer Überwachung auf dem neuen Datensatz trainiert werden kann. Insbesondere generieren wir zunächst Pseudolabels für den EgoPW-Datensatz durch eine räumlich-zeitliche Optimierungsmethode unter Einbeziehung der externen Sichtüberwachung. Diese Pseudolabels werden dann verwendet, um ein Netzwerk zur Schätzung der egozentrischen Pose zu trainieren. Um das Training des Netzwerks zu erleichtern, schlagen wir eine neuartige Lernstrategie vor, die die egozentrischen Merkmale mit den hochwertigen Merkmalsdaten überwacht, die von einem vortrainierten Modell zur Schätzung der externen Pose extrahiert wurden. Die Experimente zeigen, dass unsere Methode genaue 3D-Posen aus einem einzigen realen egozentrischen Bild vorhersagt und sowohl quantitativ als auch qualitativ die bislang besten Methoden übertrifft.