
Wir präsentieren einen graphenkonvolutionellen, durch Verstärkung mittels Transformer gestützten Ansatz namens Mesh Graphormer zur Rekonstruktion von 3D-Gesten und -Meshes aus einer einzigen Bildaufnahme. In jüngster Zeit haben sowohl Transformer als auch Graphen-Convolutional Neural Networks (GCNNs) vielversprechende Fortschritte bei der Rekonstruktion menschlicher Meshes gezeigt. Transformer-basierte Ansätze sind besonders effektiv im Modellieren von nicht-lokalen Wechselwirkungen zwischen 3D-Mesh-Ecken und Körpergelenken, während GCNNs hervorragend geeignet sind, lokale Nachbarschaftsbeziehungen zwischen Mesh-Ecken unter Ausnutzung einer vordefinierten Mesh-Topologie zu erfassen. In dieser Arbeit untersuchen wir, wie Graphenkonvolutionen und Selbst-Attention-Mechanismen innerhalb eines Transformers kombiniert werden können, um sowohl lokale als auch globale Wechselwirkungen effizient zu modellieren. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Ansatz, Mesh Graphormer, die bisherigen State-of-the-Art-Methoden erheblich auf mehreren Benchmark-Datensätzen, darunter Human3.6M, 3DPW und FreiHAND, übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/microsoft/MeshGraphormer verfügbar.