Einstufige 3D-Vollkörpergitterrekonstruktion mit komponentenbewusstem Transformer

Die Wiederherstellung von Ganzkörpergittern (Whole-body Mesh Recovery) zielt darauf ab, aus einem einzelnen Bild die 3D-Parameter des menschlichen Körpers, Gesichts und Hände zu schätzen. Die Durchführung dieser Aufgabe mit einem einzelnen Netzwerk ist aufgrund von Auflösungsproblemen herausfordernd, da das Gesicht und die Hände in der Regel in extrem kleinen Bereichen liegen. Bestehende Arbeiten erkennen in der Regel zunächst Hände und Gesichter, vergrößern ihre Auflösung und füttern sie in ein spezifisches Netzwerk zur Vorhersage der Parameter, um die Ergebnisse schließlich zu fusionieren. Obwohl diese Copy-Paste-Pipeline die feingranularen Details des Gesichts und der Hände erfassen kann, sind die Verbindungen zwischen den verschiedenen Teilen im späteren Fusionsschritt nicht leicht wiederherzustellen, was zu unwahrscheinlichen 3D-Rotationen und unnatürlichen Poses führt. In dieser Arbeit schlagen wir eine einstufige Pipeline für eine ausdrucksstarke Wiederherstellung von Ganzkörpergittern vor, namens OSX, ohne getrennte Netzwerke für jeden Teil. Insbesondere entwickeln wir einen Komponentenbewussten Transformer (Component Aware Transformer, CAT), der aus einem globalen Körperencoder und einem lokalen Gesicht-/Handdecoder besteht. Der Encoder schätzt die Körperparameter und stellt dem Decoder eine hochwertige Merkmalskarte zur Verfügung, der einen Merkmals-Level Upsample-Crop-Schema anwendet, um hochaufgelöste teilbezogene Merkmale zu extrahieren, und keypoint-gesteuerte deformierbare Aufmerksamkeit verwendet, um Hand und Gesicht präzise zu schätzen. Die gesamte Pipeline ist einfach aber effektiv, erfordert keine manuelle Nachbearbeitung und vermeidet natürlich unwahrscheinliche Vorhersagen. Umfassende Experimente belegen die Effektivität von OSX. Schließlich bauen wir einen groß angelegten Oberkörper-Datensatz (Upper-Body Dataset, UBody) mit hochwertigen 2D- und 3D-Ganzkörperannotierungen auf. Er enthält Personen mit teilweise sichtbaren Körpern in diversen realen Szenarien, um die Lücke zwischen der grundlegenden Aufgabe und den nachgeschalteten Anwendungen zu überbrücken.