GFPose: Lernen von 3D-Menschenpose-Prioren mit Gradientenfeldern

Das Lernen von 3D-Menschenhaltungsvorwissen ist für menschenzentrierte KI von wesentlicher Bedeutung. In diesem Beitrag stellen wir GFPose vor, ein vielseitiges Framework zur Modellierung plausibler 3D-Menschenhaltungen für verschiedene Anwendungen. Im Zentrum von GFPose steht ein zeitabhängiges Score-Netzwerk, das den Gradienten an jedem Körperteil schätzt und die gestörte 3D-Menschenhaltung schrittweise entstößt, um einer gegebenen Aufgabenbeschreibung zu entsprechen. Während des Entstörungsprozesses inkorporiert GFPose implizit Haltungsvorwissen in die Gradienten und vereint verschiedene diskriminative und generative Aufgaben in einem eleganten Framework. Trotz seiner Einfachheit zeigt GFPose großes Potenzial in mehreren nachgelagerten Aufgaben. Unsere Experimente belegen empirisch, dass 1) als Multi-Hypothese-Haltungsvermuter GFPose bestehende State-of-the-Art-Methoden auf dem Human3.6M-Datensatz um 20 % übertrifft. 2) als Single-Hypothese-Haltungsvermuter erreicht GFPose vergleichbare Ergebnisse mit deterministischen State-of-the-Art-Methoden, selbst bei Verwendung eines einfachen Backbones (vanilla backbone). 3) GFPose ist in der Lage, vielfältige und realistische Beispiele in den Aufgaben der Haltungsentstörung, -vervollständigung und -generierung zu erzeugen.Projektseite: https://sites.google.com/view/gfpose/