3D-Menschliche-Pose-Schätzung im Freien durch adversariales Lernen

Kürzlich wurden dank der leistungsfähigen tiefen Faltungsneuronalen Netze (Deep Convolutional Neural Networks, DCNNs) bemerkenswerte Fortschritte bei der Schätzung von 3D-Menschpose aus monokularen Bildern erzielt. Trotz ihrer Erfolge bei großen Datensätzen, die in kontrollierten Laborumgebungen gesammelt wurden, ist es schwierig, 3D-Pose-Annotationen für freie Bilder zu erhalten. Daher bleibt die Schätzung von 3D-Menschpose im Freien ein Herausforderung. In dieser Arbeit schlagen wir einen adversären Lernrahmen vor, der die aus dem vollständig annotierten Datensatz gelernten 3D-Menschpose-Strukturen auf freie Bilder mit nur 2D-Pose-Annotationen überträgt. Anstatt hart kodierte Regeln zur Einschränkung der Pose-Schätzresultate zu definieren, entwerfen wir einen neuen mehrfachquelligen Diskriminator, um die vorhergesagten 3D-Posen vom Ground Truth zu unterscheiden. Dies hilft dabei, dass der Pose-Schätzer auch bei freien Bildern anthropometrisch gültige Posen generiert. Wir beobachten außerdem, dass eine sorgfältig gestaltete Informationsquelle für den Diskriminator entscheidend ist, um die Leistung zu steigern. Deshalb entwerfen wir einen geometrischen Deskriptor, der die paarweisen relativen Positionen und Abstände zwischen Körperteilen berechnet und als neue Informationsquelle für den Diskriminator dient. Die Effektivität unseres adversären Lernrahmens mit dem neuen geometrischen Deskriptor wurde durch umfangreiche Experimente auf weit verbreiteten öffentlichen Benchmarks nachgewiesen. Unser Ansatz verbessert die Leistung erheblich im Vergleich zu früheren Stand-of-the-Art-Ansätzen.