End-to-End Rekonstruktion der menschlichen Haltung und des 3D-Gitters mit Transformers

Wir präsentieren eine neue Methode, die MEsh TRansfOrmer (METRO) genannt wird, um aus einem einzelnen Bild die 3D-Haltung und die Gitterpunkte des menschlichen Körpers zu rekonstruieren. Unsere Methode verwendet einen Transformer-Encoder, um gleichzeitig die Interaktionen zwischen Gitterpunkten und zwischen Gitterpunkten und Gelenken zu modellieren, und gibt 3D-Gelenkkoordinaten und Gitterpunkte simultan aus. Im Vergleich zu bestehenden Techniken, die Haltungs- und Formparameter regressieren, hängt METRO nicht von parametrischen Gittermodellen wie SMPL ab. Daher kann sie leicht auf andere Objekte wie Hände erweitert werden. Wir lockern zudem die Gittertopologie und ermöglichen dem Selbst-Aufmerksamkeitsmechanismus des Transformers freien Zugriff auf beliebige zwei Gitterpunkte, was es ermöglicht, nicht-lokale Beziehungen zwischen den Gitterpunkten und den Gelenken zu lernen. Durch das vorgeschlagene maskierte Modellierung der Gitterpunkte ist unsere Methode robuster und effektiver bei der Bewältigung herausfordernder Situationen wie partieller Verdeckungen. METRO erzielt neue Stand der Technik-Ergebnisse für die Rekonstruktion von menschlichen 3D-Gittern in den öffentlichen Datensätzen Human3.6M und 3DPW. Darüber hinaus zeigen wir die Übertragbarkeit von METRO auf die Rekonstruktion von 3D-Händen im Freien, wobei wir bestehende Stand-der-Technik-Methoden im FreiHAND-Datensatz übertreffen. Der Quellcode und vorab trainierte Modelle sind unter https://github.com/microsoft/MeshTransformer verfügbar.