HyperAIHyperAI
vor 15 Tagen

MUG: Multi-human Graph Network für die 3D-Mesh-Rekonstruktion aus 2D-Pose

Chenyan Wu, Yandong Li, Xianfeng Tang, James Wang
MUG: Multi-human Graph Network für die 3D-Mesh-Rekonstruktion aus 2D-Pose
Abstract

Die Rekonstruktion mehrerer menschlicher Körpernetze aus einem einzigen monokularen Bild stellt ein wichtiges, jedoch herausforderndes Problem im Bereich des Computer Vision dar. Neben der Schätzung individueller Körpernetzmodelle ist es notwendig, die relativen 3D-Positionen zwischen den Personen zu bestimmen, um eine konsistente Darstellung zu erzeugen. In dieser Arbeit stellen wir MUG (Multi-hUman Graph network) vor – ein einziges Graph Neural Network –, das konsistente Mehrpersonen-Netze ausschließlich auf Basis von 2D-Posen mehrerer Personen rekonstruiert. Im Gegensatz zu bestehenden Methoden, die einen detektionsbasierten Ansatz verfolgen (d. h. Bildmerkmale extrahieren, menschliche Instanzen lokalisieren und anschließend Körpernetze rekonstruieren), leiden diese aufgrund der erheblichen Domänenlücke zwischen im Labor gesammelten Trainingsdatensätzen und realen, in-the-wild Testdatensätzen. Unser Ansatz profitiert hingegen von den 2D-Posen, die aufgrund ihrer relativ konsistenten geometrischen Eigenschaften über verschiedene Datensätze hinweg stabil sind. Unser Verfahren funktioniert wie folgt: Zunächst wird zur Modellierung der Mehrpersonenszene ein neuartiges heterogenes Graph-Netzwerk aus mehreren 2D-Posen erstellt, wobei Knoten, die Personen zugehören, sowie Knoten innerhalb einer Person miteinander verbunden sind, um sowohl zwischenmenschliche Interaktionen als auch die Körpergeometrie (d. h. Skelett- und Netzaufbau) zu erfassen. Anschließend wird eine dual-branch Graph Neural Network-Architektur eingesetzt: Eine Zweigrichtung schätzt die Tiefenbeziehungen zwischen Personen, während der andere Zweig die relative Position der Gelenke im Verhältnis zum Stammgelenk (root joint) für das Körpernetz vorhersagt. Schließlich werden die gesamten Mehrpersonen-3D-Netze durch die Kombination der Ausgaben beider Zweige konstruiert. Umfangreiche Experimente zeigen, dass MUG bestehende Methoden zur Mehrpersonen-Netzrekonstruktion auf Standard-3D-Menschenbenchmarks – Panoptic, MuPoTS-3D und 3DPW – übertrifft.

MUG: Multi-human Graph Network für die 3D-Mesh-Rekonstruktion aus 2D-Pose | Neueste Forschungsarbeiten | HyperAI