THUNDR: Transformer-basierte 3D-HUmaN-Rekonstruktion mit Markern

Wir präsentieren THUNDR, eine auf Transformers basierende tiefes neuronales Netzwerk-Methode zur Rekonstruktion der 3D-Pose und -Form von Menschen anhand monokularer RGB-Bilder. Kernstück unserer Methode ist eine intermediäre 3D-Marker-Darstellung, bei der wir die Vorhersagekraft architektonisch modellfreier Ausgabestrukturen mit den regulierenden, anthropometrisch erhaltenden Eigenschaften eines statistischen menschlichen Oberflächenmodells wie GHUM kombinieren – einem kürzlich vorgestellten, ausdrucksstarken, ganzen Körper umfassenden statistischen 3D-Menschenmodell, das end-to-end trainiert wurde. Unser neuartiger, auf Transformers basierender Vorhersage-Pipeline kann sich auf bildregionen konzentrieren, die für die Aufgabe relevant sind, unterstützt selbstüberwachte Lernregime und stellt sicher, dass die Lösungen mit der menschlichen Anthropometrie konsistent sind. Wir erzielen state-of-the-art-Ergebnisse auf den Datensätzen Human3.6M und 3DPW, sowohl für vollständig überwachte als auch für selbstüberwachte Modelle, bei der Aufgabe der Schätzung der 3D-Menschenform, der Gelenkpositionen und der globalen Translation. Darüber hinaus beobachten wir eine sehr stabile 3D-Rekonstruktionsleistung auch für schwierige, in der Wildnis aufgenommene menschliche Posen.