Selbstüberwachtes Lernen von 3D-Menschlichen Pose unter Verwendung der Multiview-Geometrie

Das Training genauer 3D-Pose-Schätzer erfordert eine große Menge an 3D-Referenzdaten, die teuer zu sammeln sind. Aufgrund des Mangels an 3D-Daten wurden verschiedene schwach überwachte oder selbstüberwachte Pose-Schätzmethoden vorgeschlagen. Dennoch benötigen diese Methoden neben den 2D-Referenzposes entweder zusätzliche Überwachung in verschiedenen Formen (z.B. unverbundene 3D-Referenzdaten, eine kleine Teilmenge von Labels) oder die Kameraparameter in Mehrsichtbereichsszenarien. Um diese Probleme zu lösen, präsentieren wir EpipolarPose, eine selbstüberwachte Lernmethode für die 3D-Pose-Schätzung, die keine 3D-Referenzdaten oder Kameraextrinsiken benötigt. Während des Trainings schätzt EpipolarPose 2D-Poses aus Mehrsichtbilder und nutzt dann epipolaren Geometrie, um eine 3D-Pose und Kamerageometrie zu erhalten, die anschließend verwendet werden, um einen 3D-Pose-Schätzer zu trainieren. Wir zeigen die Effektivität unseres Ansatzes anhand standardisierter Benchmark-Datensätze wie Human3.6M und MPI-INF-3DHP, wo wir unter den schwach/selbstüberwachten Methoden den neuen Stand der Technik setzen. Darüber hinaus schlagen wir eine neue Leistungsmessung vor: den Pose Structure Score (PSS), der ein maßstabsinvariantes, strukturbewusstes Maß zur Bewertung der strukturellen Plausibilität einer Pose im Vergleich zu ihrer Referenz ist. Der Code und vorab trainierte Modelle sind unter https://github.com/mkocabas/EpipolarPose verfügbar.