Monokulare expressiver Körperregression durch körpergetriebene Aufmerksamkeit

Um zu verstehen, wie Menschen aussehen, interagieren oder Aufgaben ausführen, müssen wir ihre 3D-Körper, -Gesichter und -Hände schnell und präzise aus einem RGB-Bild erfassen. Die meisten existierenden Methoden konzentrieren sich nur auf Teile des Körpers. Einige neuere Ansätze rekonstruieren voll ausdrucksstarke 3D-Menschen aus Bildern unter Verwendung von 3D-Körpormodellen, die Gesicht und Hände einschließen. Diese Methoden basieren auf Optimierung und sind daher langsam, anfällig für lokale Optima und erfordern 2D-Schlüsselpunkte als Eingabe. Wir beheben diese Einschränkungen durch die Einführung von ExPose (EXpressive POse and Shape rEgression), das den Körper, das Gesicht und die Hände direkt im SMPL-X-Format aus einem RGB-Bild regressiert. Dies ist ein schwieriges Problem aufgrund der hohen Dimensionalität des Körpers und dem Mangel an ausdrucksstarken Trainingsdaten. Zudem sind Hände und Gesichter viel kleiner als der Körper und nehmen nur sehr wenige Bildpixel ein. Dies erschwert die Schätzung von Händen und Gesichtern, wenn Körpbilder für neuronale Netze verkleinert werden. Wir leisten drei Hauptbeiträge. Erstens berücksichtigen wir den Mangel an Trainingsdaten durch die Zusammenstellung eines Datensatzes mit SMPL-X-Anpassungen auf realen Bildern. Zweitens stellen wir fest, dass die Körperschätzung das Gesicht und die Hände zufriedenstellend lokalisiert. Wir führen eine körpergetriebene Aufmerksamkeit für Gesichts- und Handbereiche im Originalbild ein, um hochaufgelöste Ausschnitte zu extrahieren, die an spezialisierte Verfeinerungsmoduln weitergeleitet werden. Drittens nutzen diese Moduln wissensspezifische Informationen aus bestehenden Datensätzen für Gesichter und Hände allein. ExPose schätzt ausdrucksstarke 3D-Menschen genauer als bestehende Optimierungsverfahren bei einem Bruchteil des Rechenaufwands. Unsere Daten, unser Modell und unser Code sind für Forschungszwecke unter https://expose.is.tue.mpg.de verfügbar.