3D Human Mesh Regression mit dichter Korrespondenz

Die Schätzung einer 3D-Mesh-Struktur des menschlichen Körpers aus einem einzigen 2D-Bild ist eine wichtige Aufgabe mit zahlreichen Anwendungen, beispielsweise in der erweiterten Realität (Augmented Reality) und der Mensch-Roboter-Interaktion. Bisherige Ansätze rekonstruierten die 3D-Mesh-Struktur auf Basis globaler Bildmerkmale, die mittels eines convolutionalen neuronalen Netzwerks (CNN) extrahiert wurden. Dabei fehlten jedoch dichte Korrespondenzen zwischen der Mesh-Oberfläche und den Bildpixeln, was zu suboptimalen Lösungen führte. In dieser Arbeit wird ein modellfreies Framework zur Schätzung 3D-Mesh-Strukturen vorgestellt, das als DecoMR bezeichnet wird. DecoMR etabliert explizit dichte Korrespondenzen zwischen der Mesh-Geometrie und lokalen Bildmerkmalen im UV-Raum – einem zweidimensionalen Raum, der zur Texturabbildung von 3D-Meshes verwendet wird. Zunächst wird eine pixel-zu-Flächen-Korrespondenzkarte (sogenannte IUV-Bild) vorhergesagt, mit deren Hilfe lokale Merkmale aus dem Bildraum in den UV-Raum übertragen werden. Anschließend werden die übertragenen lokalen Bildmerkmale im UV-Raum verarbeitet, um eine Ortskarten-Regressionsfunktion zu erzeugen, die gut mit den übertragenen Merkmalen ausgerichtet ist. Schließlich wird die 3D-Mesh-Struktur aus der regressierten Ortskarte mittels einer vordefinierten Abbildungsfunktion rekonstruiert. Darüber hinaus stellen wir fest, dass die üblichen diskontinuierlichen UV-Karten für das Lernen von neuronalen Netzen ungünstig sind. Daher schlagen wir eine neue UV-Karte vor, die die meisten benachbarten Beziehungen der ursprünglichen Mesh-Oberfläche beibehält. Experimente zeigen, dass unsere vorgeschlagene lokale Merkmalsausrichtung und die kontinuierliche UV-Karte bestehende 3D-Mesh-basierte Methoden auf mehreren öffentlichen Benchmarks übertrifft. Der Quellcode wird unter https://github.com/zengwang430521/DecoMR verfügbar gemacht.